Рассматриваются методы формирования многомерных векторных представлений слов,
отражающих их семантическую близость. Используется статистика совместной встречаемости слов и
контекстов, извлекаемая из больших корпусов текстов. Реализован прототип программных средств
обработки текстовой информации, формирования семантических представлений и текстового поиска.
Приводятся результаты экспериментальных исследований адекватности разработанных представлений
в ряде тестовых задач.
Розглянуто методи формування багатовимірних векторних представлень слів, що
відображають їх семантичну близькість. Використовується статистика сумісного вживання слів і
контекстів у великих корпусах текстів. Реалізовано прототип програмних засобів обробки текстової
інформації, формування семантичних представлень та текстового пошуку. Приведено результати
експериментальних досліджень адекватності розроблених представлень у ряді тестових задач.
Methods for formation of multidimensional vector representation of words reflecting their semantic similarity
are considered. The methods are based on statistics of co-occurrence of words and contexts that is extracted from
large text corpuses. Prototypes of software systems for processing of textual information, formation of semantic
representations and text search are implemented. Results of experimental investigation of the developed
representations in a number of tests are provided.