Наукова електронна бібліотека
періодичних видань НАН України

Distributional semantic modeling: a revised technique to train term/word vector space models applying the ontology-related approach

Репозиторій DSpace/Manakin

Показати простий запис статті

dc.contributor.author Palagin, O.V.
dc.contributor.author Velychko, V.Yu.
dc.contributor.author Malakhov, K.S.
dc.contributor.author Shchurov, O.S.
dc.date.accessioned 2021-09-29T18:47:03Z
dc.date.available 2021-09-29T18:47:03Z
dc.date.issued 2020
dc.identifier.citation Distributional semantic modeling: a revised technique to train term/word vector space models applying the ontology-related approach / O.V. Palagin, V.Yu Velychko., K.S. Malakhov, O.S. Shchurov // Проблеми програмування. — 2020. — № 2-3. — С. 341-351. — Бібліогр.: 50 назв. — англ. uk_UA
dc.identifier.issn 1727-4907
dc.identifier.other DOI: https://doi.org/10.15407/pp2020.02-03.341
dc.identifier.uri http://dspace.nbuv.gov.ua/handle/123456789/180480
dc.description.abstract We design a new technique for the distributional semantic modeling with a neural network-based approach to learn distributed term representations (or term embeddings) – term vector space models as a result, inspired by the recent ontology-related approach (using different types of contextual knowledge such as syntactic knowledge, terminological knowledge, semantic knowledge, etc.) to the identification of terms (term extraction) and relations between them (relation extraction) called semantic pre-processing technology – SPT. Our method relies on automatic term extraction from the natural language texts and subsequent formation of the problem-oriented or application-oriented (also deeply annotated) text corpora where the fundamental entity is the term (includes non-compositional and compositional terms). This gives us an opportunity to changeover from distributed word representations (or word embeddings) to distributed term representations (or term embeddings). The main practical result of our work is the development kit (set of toolkits represented as web service APIs and web application), which provides all necessary routines for the basic linguistic pre-processing and the semantic pre-processing of the natural language texts in Ukrainian for future training of term vector space models. uk_UA
dc.description.abstract В работе предложен новый метод дистрибутивно-семантического моделирования с элементами онтологического инжиниринга (а именно, автоматическое извлечение терминов) для обучения предсказательных моделей дистрибутивной семантики с использованием векторного представления терминов – term embeddings. В основе предложенного метода лежит новая технология вычислительной/математической лингвистики для обработки естественно-языковых текстов, получившая название – технология семантического пре-процессинга текстов. Технология семантического пре-процессинга текстов основана на автоматическом синтактико-семантическом анализе естественно-языковых текстов, в частности, автоматическом извлечении терминов (их идентификация, валидация и разметка) с последующим формированием проблемно-ориентированных, глубоко аннотированных текстовых корпусов, в которых фундаментальной сущностью является термин (включая композиционные термины). Это даёт возможность перейти от распределенного/векторного представления слов к распределенному/векторному представлению терминов. Практическим результатом работы является разработанный набор инструментальных/программных средств (в виде веб-сервисов и веб-приложения), который обеспечивает выполнение всех необходимых процедур и функций для реализации технологий базовой лингвистической предобработки и семантического пре-процессинга естественно-языковых текстов на украинском языке с последующим обучением дистрибутивно-семантических моделей векторного представления терминов. uk_UA
dc.description.abstract В роботі запропоновано новий метод дистрибутивно-семантичного моделювання з елементами онтологічного інжинірингу (а саме, автоматичне добування термінів) для навчання передбачуваних моделей дистрибутивної семантики з використанням векторного представлення термінів – term embeddings. В основі запропонованого методу лежить нова технологія обчислювальної/математичної лінгвістики для обробки природномовних текстів, що отримала назву – технологія семантичного пре-процесингу текстів. Технологія семантичного пре-процесингу текстів базується на автоматичному синтактико-семантичному аналізі природномовних текстів, зокрема, автоматичному добуванні/виокремленні (їх ідентифікація, валідація та розмітка) термінів з подальшим формуванням проблемно-орієнтованих, глибоко анотованих текстових корпусів, в яких фундаментальною сутністю є термін (включаючи композиційні терміни). Це дає можливість перейти від розподіленого/векторного представлення слів до розподіленого/векторного представлення термінів. Практичним результатом роботи є розроблений набір інструментальних/програмних засобів (у вигляді веб-сервісів і веб-застосунку), який забезпечує виконання всіх необхідних процедур і функцій для реалізації технологій базової лінгвістичної попередньої обробки та семантичного пре-процесингу природномовних текстів українською мовою з подальшим навчанням дистрибутивно-семантичних моделей векторного представлення термінів. uk_UA
dc.language.iso en uk_UA
dc.publisher Інститут програмних систем НАН України uk_UA
dc.relation.ispartof Проблеми програмування
dc.subject Методи машинного навчання uk_UA
dc.title Distributional semantic modeling: a revised technique to train term/word vector space models applying the ontology-related approach uk_UA
dc.title.alternative Распределенное семантическое моделирование: пересмотренный метод обучения моделей векторного пространства терминов / слов с применением подхода, связанного с онтологией uk_UA
dc.title.alternative Розподілене семантичне моделювання: переглянута техніка для навчання моделей простору термінів / слів із застосуванням онтологічного підходу uk_UA
dc.type Article uk_UA
dc.status published earlier uk_UA
dc.identifier.udc 004.91: 004.912


Файли у цій статті

Ця стаття з'являється у наступних колекціях

Показати простий запис статті

Пошук


Розширений пошук

Перегляд

Мій обліковий запис