Наукова електронна бібліотека
періодичних видань НАН України

Визначення iнформативностi параметрiв моделi прогнозування ймовiрностi вибору продукту в умовах «Big Data»

Репозиторій DSpace/Manakin

Показати простий запис статті

dc.contributor.author Гриценко, В.І.
dc.contributor.author Онищенко, І.М.
dc.date.accessioned 2018-03-23T15:49:56Z
dc.date.available 2018-03-23T15:49:56Z
dc.date.issued 2017
dc.identifier.citation Визначення iнформативностi параметрiв моделi прогнозування ймовiрностi вибору продукту в умовах «Big Data» / В.І. Гриценко, І.М. Онищенко // Кибернетика и вычисл. техника. — 2017. — Вип. 4 (190). — С. 5-18. — Бібліогр.: 20 назв. — укр. uk_UA
dc.identifier.issn 0452-9910
dc.identifier.other DOI: https://doi.org/10.15407/kvt190.04.005
dc.identifier.uri http://dspace.nbuv.gov.ua/handle/123456789/131493
dc.description.abstract Впровадження нових методів та підходів до оброблення даних, які отримали назву «Big Data», особливо актуально для систем з високою завантаженістю. В умовах швидкого потоку даних традиційні пакетні методи моделювання не завжди дають точні та стійкі результати, бракує ефективних методів відбору важливих параметрів. Розглянуто онлайновий підхід до моделювання та прогнозування в умовах «Big Data» та методи оцінювання і відбору параметрів моделі прогнозування ймовірності вибору продукту за їх інформативною важливістю. Для визначення інформативності параметра розглянуто підхід до побудови моделі із використанням регуляризації L1 (LASSO), L2 (RIDGE) та модель Follow-The-Regularized-Leader. Теоретичні та математичні викладки супроводжуються програмною реалізацією методу мовою програмування Python. Методи online-learning дозволяють отримати оцінки параметрів моделі у режимі реального часу, що дає змогу використовувати їх у високонавантажених системах оброблення даних, у прогнозуванні та прийнятті рішень. uk_UA
dc.description.abstract Внедрение новых методов и подходов к обработке данных, получивших название «Big Data», особенно актуально для систем с высокой загруженностью. В условиях быстрого потока данных традиционные пакетные методы моделирования не всегда дают точные и устойчивые результаты и не имеют эффективных алгоритмов отбора важных переменных. Рассмотрен онлайновый подход к моделированию и прогнозированию в условиях «Big Data» среды, а также методы оценки и отбора переменых модели по их информативности. Для определения информативности параметра рассмотрен метод построения модели с использованием регуляризаций L1(LASSO) и L2 (RIDGE), а также модель Follow-The-Regularized-Leader. Теоретические и математические результаты сопровождены программной реализацией описанного метода на языке программирования Python. Методы online-learning позволяют получить оценки информативности параметров модели в режиме реального времени, что дает возможность использовать их для высоконагруженных систем обработки данных, прогнозирования и принятия решений. uk_UA
dc.description.abstract Introduction. Fast growth of collected and stored data due to IT bumming caused a problem called “Big Data Problem”. Most of the new data are unstructured and this is the core reason why traditional relational data warehouse are so inefficient to deal with Big Data. Predicting and modeling based on Big Data also can be problematic because of high volume and velocity. To avoid some problems online learning algorithms can be successful for high-load systems. The purpose of the article is to develop an approach to feature selection and modeling in case of Big Data with using online learning algorithm. Method. Online learning algorithm for FTRL (Follow-The-Regularized-Leader) model with L1 and L2 regularization to select only important features was used. Results. The approaches of modeling in cases of using batch and online learning algorithms are described on the example of online auction system. The online learning algorithm has very strong preferences in case of high load and high velocity. Mathematical background for modification of linear discriminator of FTL (Follow-The-Leader) model with adding regularization was described. L1 and L2 regularization allows us to select important features in real time. If the feature becomes useless, the regularization will set the corresponding coefficient equal to 0. But it does not remove the feature from training process and the coefficient can be restored with some value in case of its importance for model. The full process is prepared as a program in Python and can be used in practice. The results may be applied for modeling and forcasting in projects with high volume or velocity of data, for example — social networks, online auctions, online gaming, recommendation systems and others. uk_UA
dc.language.iso uk uk_UA
dc.publisher Міжнародний науково-навчальний центр інформаційних технологій і систем НАН України та МОН України uk_UA
dc.relation.ispartof Кибернетика и вычислительная техника
dc.subject Информатика и информационные технологии uk_UA
dc.title Визначення iнформативностi параметрiв моделi прогнозування ймовiрностi вибору продукту в умовах «Big Data» uk_UA
dc.title.alternative Определение информативности параметров модели прогнозирования вероятности выбора продукта в условиях "Big Data" uk_UA
dc.title.alternative Determining the Informativity of Parameters in a Prognostic Model for Evaluating the Probability of Product Selection in Case of Big Data uk_UA
dc.type Article uk_UA
dc.status published earlier uk_UA
dc.identifier.udc 330.4:004.22


Файли у цій статті

Ця стаття з'являється у наступних колекціях

Показати простий запис статті

Пошук


Розширений пошук

Перегляд

Мій обліковий запис