Метою дослідження є визначення ефективних підходів щодо вдосконалення семантичного ана- лізу графічних контентів великих даних, а саме таких, як зображення або відеосцени. Сутність запропонованого підходу полягає в урахуванні особливих характеристик складних контентів та створенні гібридної моделі анотування, що розширює текстову модель більш специфічними елементами, наприклад, для візуальних даних, характеристиками візуалізації. Визначення подібності інформаційних контентів є критичною проблемою для вирішення цілої низки задач великих даних. В тому числі, є основою для ка- тегоризації цих контентів, забезпечують можливість композиції документів, конвертації неструктурованого контенту у структури релевантних знань, візуалізації інформації. Семантич- ний аналіз інформаційних контентів, зазвичай, базується на їх метаданих, які складають основу семантичних анотацій та є елементами структурованого семантичного опису контенту й базісом для його автоматизованої обробки. В основу підходу покладено використання онтологій для визначення семантичних анотацій. Онтології надають різноманітні джерела знань для вимірювання семантичної подібності, містять багато інформації про тлумачення понять та інші семантичні зв’язки з ієрархічною структурою, що базується на відносинах гіпонімії. Але, остан- ні роки, разом з швидким зростанням кількості зображень та відеоресурсів, спостерігається суттєве збагачення доступної візуальної інформації. З візуальної точки зору легше зрозуміти, чи є подібними два поняття. Тому, інтеграція семантичної та візуальної інформації зображення забезпечує оптимізацію методів оцінювання подібності, що заснований на онтологіях, та до- зволяє отримати більш узгоджені з уявленням людини метрики подібності. Такі оцінки комплексної семантичної подібності концептів визначаються шляхом композиції двох функцій, перша з яких, фактично, є онтологічною мірою подібності, а друга будується на основі комплексного встановленим ваговим балансом між цими двома різновидами інформації. Поєднання ознак візуалізації з семантичними та онтологічними характеристиками контента у формуванні оцінок подібності й становлять центральну ідею даного дослідження
The purpose of the research is to specify effective approaches for improving the semantic analysis of graphic contents of big data. This article considers images or video scenes as examples of such complex contents. Proposed approach takes into account the special features of these contents and create a hybrid annotation model that extends the text annotation model with more specific elements. For the visual data, these are characteristics of visualization. Determining the similarity of information contents is a critical problem for solving big data tasks. It is the basis for the big data categorization and enables the composition of the documents, conversion of an unstructured contents to relevant knowledge structures and the visualization of the information. Semantic analysis of information contents is usually based on their metadata, which form the basis of semantic annotations. Also, they are elements of a structured semantic description of the content and the basis for its automated processing. The approach is based on using ontologies to define semantic annotations. Ontologies provide various sources of knowledge to measure semantic similarity, contain a lot of information about the interpretation of concepts and other semantic relationships with a hierarchical structure based on hyponymy relations. But, in recent years, there is the rapid growth of the number of images and video resources. And, at this time, we can note a significant enrichment of available visual information. From a visual point of view, it is easier to understand whether two concepts are similar. Therefore, the integration of semantic and visual information of the image ensures the optimization of the ontological methods for similarity estimation and allows to obtain similarity metrics that are more consistent with human perception. De facto, such assessments of the complex semantic similarity of concepts are defined by the composition of two functions, the first of which, in fact, is an ontological measure of similarity, and the second is built on the basis of a complex facilities vector. It is a concatenation of semantic and visual characteristics with an established weight balance between these two types of features. The combination of visualization features with semantic and ontological characteristics of the contents in the similarity metrics is the central idea of this study