На сьогодні обсяги даних, якими оперують прикладні системи, експоненціально безперервно зростають та уже давно досягли таких розмірів, що не можуть оброблятися традиційними системами. Так виник термін «Великі дані». Головні проблеми таких наборів даних пов’язані, перш за все, не лише з їх об’ємом, але й з різноманітністю, різнорідністю та складністю інформації, яку вони містять. Таким чином, разом із зростанням обсягів даних і кількості ініціатив великих даних, на перший план виходять метадані, як найважливіший пріоритет успіху проектів великих даних. Підприємства усвідомлюють, що повне використання ділового та операційного потенціалу машинного навчання, глибокого навчання та штучного інтелекту вимагає, щоб необроблені дані були доповнені метаданими. Метою даної роботи є аналіз впливу метаданих на вирішення комплексу проблем великих даних, визначення основних категорій даних, що підлягають анотуванню метаданими, та основних типів метаданих, що для цього використовуються. Насьогодні метадані є засобом класифікації, впорядкування та характеристики даних або їх вмісту. Залежно від ролі, яку вони відіграють у вирішенні задач великих даних, NISO поділяє їх на чотири типи, а саме: адміністративні, описові, структурні та мови розмітки. Різні типи метаданих можуть бути використані певним чином для ефективного вирішення задач управління, пошуку, інтеграції даних тощо. Окремим питанням є способи їх створення/автоматичної генерації, тому що ручне створення метаданих є процесом досить трудомістким, а їх обсяг часто у кілька разів перевищує обсяг самих даних.
На сегодняшний день объемы данных, которыми оперируют прикладные системы, экспоненциально непрерывно растут и уже давно достигли таких размеров, что не могут обрабатываться традиционными системами. Так появился термин «Большие данные». Основные проблемы таких наборов данных связаны, прежде всего, не только с их объемами, но и с разнообразностью, разнородностью и сложностью информации, которую они содержат. Таким образом, вместе с ростом объемов данных та числа инициатив больших данных, на первый план выходят метаданные, как самый главный приоритет успешности проектов больших данных. Предприятия понимают, что полное использование делового и операционного потенциала машинного обучения, глубокого обучения и искусственного интеллекта требует дополнения не обработанных данных метаданными. Поэтому, целью данной работы является анализ влияния метаданных и решение комплекса проблем больших данных, определение основных категорий данных, подлежащих аннотированию метаданными, и основных типов используемых для этого метаданных. На сегодняшний день метаданные являются средством классификации, упорядочивания и характеристики данных или их содержимого. В зависимости от роли, которую они играют в решении задач больших данных, NISO выделяет четыре основных типа метаданных: административные, описательные, структурные и языки разметки. Разные типы метаданных могут использоваться определенным образом для эффективного решения задач управления, поиска, интеграции данных и т.п. Отдельным вопросом остаются способы их создания/автоматической генерации, так как создание метаданных в ручную является трудоемким процессом, а их объем зачастую в несколько раз превосходит объем самих данных.
Today, the volumes of data used by application systems are growing exponentially and have reached such sizes that they cannot be processed by traditional systems. So the term "Big data" appeared. The main problems of such data sets are associated, first of all, not only with their volumes, but also with the variety and complexity of the information they contain. Thus, along with the growth of data volumes and the number of big data initiatives, the metadata become the most important priority for the success of large data projects. Enterprises understand that the full use of the operational potential of machine learning, in-depth learning and artificial intellect requires the unprocessed data was supplemented with metadata. Therefore, the purpose of this work is to analyze the effect of metadata to solving the big data problems, determine the main categories of data to be annotated by metadata, and the main types of metadata used for this. Today, metadata is a means of classifying, organizing, and characterizing data or its contents. Depending on the role they play in solving big data problems, NISO identifies four main types of metadata: administrative, descriptive, structural, and markup languages. Different types of metadata can be used in a certain way to effectively solve problems of management, search, data integration, etc. A separate issue is the way of their creation/automatic generation, since the manual creation of metadata is a laborious process, and their volume is often several times larger than the volume of the data itself.