Управляющие системы и машины, 2016, № 5
http://dspace.nbuv.gov.ua:80/xmlui/handle/123456789/111463
2024-03-29T10:49:25ZНаши авторы
http://dspace.nbuv.gov.ua:80/xmlui/handle/123456789/113747
Наши авторы
2016-01-01T00:00:00ZЭффективность применения языков программирования в фреймворке Apache Hadoop с использованием MapReduce
http://dspace.nbuv.gov.ua:80/xmlui/handle/123456789/113403
Эффективность применения языков программирования в фреймворке Apache Hadoop с использованием MapReduce
Глибовец, А.Н.; Дмитрук, Я.О.
Исследована эффективность использования различных языков для фреймворка Apache Hadoop с целью обработки больших коллекций данных на базе модели MapReduce. Акцент сделан на анализе скорости выполнения программ в Hadoop-кластере. Проведено сравнение различных проектов по экосистеме Hadoop для распределенных вычислений. Описанные эксперименты подтвердили преимущество использования Apache Spark. Установлено, что преимущество в скорости MapReduce-программ, написанных на Java- или другом JVM-языке, существенны.; Досліджено ефективність використання різних мов програмування у фреймворку Apache Hadoop для обробки великих колекцій даних з використанням моделі MapReduce. Акцент зроблено на аналізі швидкості виконання програм у Hadoopкластері. Проведено порівняння різних проектів із екосистеми Hadoop для розподілених обчислень. Описано експерименти, які підтвердили переваги використання Apache Spark. Встановлено, що перевага у швидкості MapReduce-програм, написаних на Java- або іншій JVM-мові над іншими, є суттєвою.; The effectiveness of the different languages for Apache Hadoop framework to process large data collections based on the MapReduce model is discussed. Apache Hadoop is used in many industrial projects all over world such as Facebook and Yahoo!. It provides the ability to process different tasks effectively and reliably on the cluster to handle the huge amounts of data. MR model allows the developers to ignore the complex architectures by cluster management, and immediately to develop a program. This work investigates the influence of the programming language on the speed of the program in the Apache Hadoop framework. The subject of comparison is the execution of programs in Java, Scala and Python that implements the solution of the simple problem: how long each word in the input collection of text documents is searched. All three programs, in spite of the language, is written in the same style, so that the comparison results are objective. For the experiments, we have chosen the image of ClouderaQuickstart VM virtual machine. The easy use of this virtual machine is that it is already established Hadoop, HDFS, and other services. Also, a cluster of three nodes is created for the study. CDH is elected as the distribution of Apache Hadoop and related projects. The desired configuration on each node is set. Each program is ran for the different size input: 8Mb, 34Mb, 61Mb, 106Mb and 203Mb. During the experiments, the best results is showed by the program that is written in the Apache Spark. In addition, it is found that the MR program in the Apache Hadoop is better to write in Java or any other JVM languages than Python. An advantage in speed is obvious. Also, experiments shows that the processing speed is larger at higher input collections. So, it is not necessary to use Hadoop to work with small data.
2016-01-01T00:00:00ZРобастная адаптивная идентификация нестационарных временных рядов с помощью ансамбля обучаемых гибридных адаптивных моделей
http://dspace.nbuv.gov.ua:80/xmlui/handle/123456789/113402
Робастная адаптивная идентификация нестационарных временных рядов с помощью ансамбля обучаемых гибридных адаптивных моделей
Бодянский, Е.В.; Винокурова, Е.А.; Кобылин, И.О.; Мулеса, П.П.
Предложены модели робастной адаптивной идентификации нестационарных временных рядов в on-line режиме поступления потока данных, характеризующиеся простотой вычислительной реализации. Проведен ряд имитационных экспериментов на основе тестовых и реальных данных.; Запропоновано моделі робастної адаптивної ідентифікації нестаціонарних часових рядів в on-line режимі надходження потоку даних, що характеризуються простотою обчислювальною реалізації. Проведено низку імітаційних експериментів на основі тестових і реальних даних.; Computationally simple and high-speed adaptive algorithms for robust identification of nonstationary non-linear time series are proposed. The distinctive feature of such algorithms is an ability to implement them using the learning models, which are consisted of the elementary arithmetic operations. The possibility of on-line information processing provides a solution of a wide class of problems, which are appeared in Data Stream Mining tasks. Also an ensemble of tuning hybrid adaptive models is proposed. This system allows to choose the best model in the context of accepted quality criterion at each discreet instant of time.
2016-01-01T00:00:00ZНекоторые программные среды аналитики больших данных и машинного обучения
http://dspace.nbuv.gov.ua:80/xmlui/handle/123456789/113401
Некоторые программные среды аналитики больших данных и машинного обучения
Урсатьев, А.А.
Рассмотрено машинное обучение и распределенная обработка данных на Apache Mahout. Сопоставлены две его реализации – на основе использования парадигмы MapReduce и программной конструкции (framework) Spark с математической средой Mahout Samsara, которая создает семантически дружественные условия для линейной алгебры, построена по образу базового пакета в R, содержит алгебраический DSL Scala и оптимизатор выражений. Библиотека ML Mllib поддерживает универсальную масштабируемую линейную алгебру и включает в себя многие современные алгоритмы.; Розглянуто машинне навчання і розподілена обробка даних з Apache Mahout. Зіставлені дві його реалізації – з використанням парадигми MapReduce та програмної конструкції Spark з математичним середовищем Mahout Samsara, яке створює семантично дружні умови для лінійної алгебри, побудоване за образом базового пакета в R, містить алгебраїчний DSL Scala та оптимізатор виразів. Бібліотека ML Mllib підтримує універсальну масштабовану лінійну алгебру і включає в себе чимало сучасних алгоритмів.; The machine Learning (Machine Learning, ML) and distributed processing of the large data collections on Apache Mahout with the automatic search ability for relevant laws are considered. Its realization through the use of MapReduce paradigm and framework Spark is compared. The representation of data and mechanisms to restore their failures, the method of calculation and the ability to cache data in memory are considered. The latter is a key tool for fast interactive use. Spark is implemented on Scala. It combines the best features of functional and object-oriented programming languages, and uses it as an application of the environment development. It provides the application programming interface for the Java language, Scala, Python and R, invites more than 80 high-level operators that makes it easily accessible for the construction of a parallel applications. Interactive mathematical environment Mahout Samsara ML includes an extended version of Scala. Mahout Samsara or the Scala & Spark Bindings are necessary for creation the semantically friendly conditions for еру linear algebra, and is built in the image of the base package in R. The linear algebra works with scalars, vectors, matrices and distribution lines of the matrices (distributed row matrix, DRMs). DRM is a new abstraction, introduced in Apache Mahout for the representation and processing matrices convenience. One of the main elements of Mahout Samsara is algebraic DSL Scala and expressions optimizer. ML Mllib, supports the scalable universal linear algebra and includes many modern algorithms.
2016-01-01T00:00:00Z