Наукова електронна бібліотека
періодичних видань НАН України

Real-time Method of Accurate Unique IPs Counting Across High Number of Distinct Dimensions and Distinct Time Frames for Big Data Systems

Репозиторій DSpace/Manakin

Показати простий запис статті

dc.contributor.author Valialkin, A.V.
dc.contributor.author Konashevych, O.I.
dc.date.accessioned 2017-04-11T20:12:03Z
dc.date.available 2017-04-11T20:12:03Z
dc.date.issued 2016
dc.identifier.citation Real-time Method of Accurate Unique IPs Counting Across High Number of Distinct Dimensions and Distinct Time Frames for Big Data Systems / A.V. Valialkin, O.I. Konashevych // Электронное моделирование. — 2016. — Т. 38, № 3. — С. 63-73. — Бібліогр.: 9 назв. — англ. uk_UA
dc.identifier.issn 0204-3572
dc.identifier.uri http://dspace.nbuv.gov.ua/handle/123456789/115757
dc.description.abstract The article describes a method which allows counting unique IP addresses within 10 bln of system events per day across high number of distinct dimensions (tuples). Log-based and probability-based methods showed unsatisfactory results. The proposed method allows avoiding excessive resource usage (RAM, CPU and persistent storage) as it appeared in a raw logs method and a probability method of counting. The method also avoids high statistic error for low cardinality as it appeared in a probability method. The main idea is to count unique IP addresses in distinct tuples in real time using RAM for short data interval processing, then flushing it to persistent. uk_UA
dc.description.abstract Описано метод, який дозволяє підрахувати кількість унікальних IP адрес із великої кількості різних наборів даних (кортежів). Методи, базовані на скануванні логів та імовірнісному підрахунку привели до незадовільних результатів. Запропонований метод дозволяє уникнути надмірного використання ресурсів (процесора, оперативної та постійної пам’ яті), як це відбувається при використанні метода сканування необроблених логів та імовірнісного методу підрахунку, а також уникнути великої статистичної похибки, як при використанні імовірнісного метода на малих кількостях унікальних значень. Основна ідея методу полягає в тому, що підрахунок унікальних IP адрес в різних кортежах в реальному часі проводиться в оперативній пам'яті. Обробка даних виконується на коротких інтервалах і потім вони передаються у постійну пам'ять згідно з алгоритмом злиття. Оброблені лічильники IP адрес надходять з файлів у звичайну базу даних з п ятихвилинним, годинним, добовим, тижневим або місячним інтервалом. uk_UA
dc.description.abstract Описан метод, позволяющий подсчитать число уникальных IP адресов из большогоколичества различных наборов данных (кортежей). Методы, основанные на сканировании логов и вероятностном подсчете, привели к неудовлетворительным результатам. Предложенный метод позволяет избежать чрезмерного использования ресурсов (процессора, оперативной и постоянной памяти), как при использовании метода сканирования необработанных логов и вероятностного метода подсчета, а также избежать большой статистической погрешности, как при использовании вероятностного метода на малых количествах уникальных значений. Основная идея метода состоит в том, что подсчет уникальных IP адресов в различных кортежах в реальном времени проводится в оперативной памяти. Обработка данных выполняется на коротких интервалах и затем они передаются в постоянную память с помощью алгоритма слияния. Обработанные счетчики IP адресов поступают в обычную базу данных из файлов с пятиминутным, часовым, суточным, недельным или месячным интервалом. uk_UA
dc.language.iso en uk_UA
dc.publisher Інститут проблем моделювання в енергетиці ім. Г.Є. Пухова НАН України uk_UA
dc.relation.ispartof Электронное моделирование
dc.subject Вычислительные процессы и системы uk_UA
dc.title Real-time Method of Accurate Unique IPs Counting Across High Number of Distinct Dimensions and Distinct Time Frames for Big Data Systems uk_UA
dc.type Article uk_UA
dc.status published earlier uk_UA
dc.identifier.udc 004.04, 004.6


Файли у цій статті

Ця стаття з'являється у наступних колекціях

Показати простий запис статті

Пошук


Розширений пошук

Перегляд

Мій обліковий запис