Досліджено проблему автоматизації пошуку ключових термінів у контенті навчальних матеріалів. Розглянуто інформаційну технологію автоматизованого визначення множини ключових семантичних термінів у контенті навчальних матеріалів, що ґрунтується на пошуку використаних фраз у тексті та дисперсійній оцінці важливості слів. Відповідно до даної інформаційної технології, на основі введених даних у вигляді файлу навчального матеріалу автоматизовано формується структура цифрового документу для вибору елементу для аналізу, після чого проводиться сегментація по фразах і термінах, терміни лематизуються та їх множина компактифікується. На основі автоматично лематизованого тексту проводиться пошук та дисперсійне оцінювання важливості слів у обраному фрагменті, після чого оцінюється важливість термінів, а їх кількість обмежується відповідно до коефіцієнту щільності ключових слів. Вхідними даними інформаційної технології є цифровий документ навчального матеріалу, вихідними даними є відповідна множина ключових семантичних термінів навчального матеріалу. Також описано результати аналізу закономірностей існуючих множин ключових семантичних термінів. Розглянуто тестовий програмний продукт, що дозволяє автоматизовано визначати множину ключових семантичних термінів за даною інформаційною технологією. Проведені дослідження підтвердили можливість ефективно формувати множини ключових семантичних термінів навчальних матеріалів з показниками точності пошуку до 92,9 % та повноти пошуку до 100,0 %. Розглянуто практичні особливості використання спеціалізованого розширення при роботі з електронними документами. Викладено фактори, що ускладнюють ефективне визначення семантичних термінів у навчальних матеріалах. Встановлена ефективність запропонованої технології сприяє її використанню для вирішення ряду актуальних задач, таких як оцінка відповідності навчальних матеріалів змістовим вимогам, оцінка відповідності наборів тестових завдань навчальним матеріалам, семантична допомога при створенні тестів, автоматизація формування рефератів та анотацій до елементів навчальних матеріалів тощо. Подальші дослідження спрямовані на аналіз впливу на показники ефективності технології взаємозв’язку між кількістю ключових семантичних термінів в результуючій множині та значенням коефіцієнту щільності ключових слів та вдосконалення розглянутої інформаційної технології для покращення результатів.
Исследовано проблему автоматизации поиска ключевых терминов в контенте обучающих материалов. Рассмотрено информационную технологию автоматизированного определения множества ключевых семантических терминов в контенте обучающих материалов, основанную на поиске использованных фраз в тексте и дисперсионной оценке важности слов. Согласно данной информационной технологии, на основе введенных данных в виде файла обучающего материала автоматизировано формируется структура цифрового документа для выбора элемента для анализа, после чего проводится сегментация по фразам и терминам, термины лемматизируются и их множество компактификуется. На основе автоматически лематизированного текста производится поиск и дисперсионная оценка важности слов в выбранном фрагменте, после чего оценивается важность терминов, а их количество ограничивается в соответствии с коэффициентом плотности ключевых слов. Входными данными информационной технологии является цифровой документ обучающего материала, выходными данными является соответствующее множество ключевых семантических терминов обучающего материала. Также описаны результаты анализа закономерностей существующих множеств ключевых семантических терминов. Рассмотрен тестовый программный продукт, позволяющий автоматизировано определять множество ключевых семантических терминов по данной информационной технологии. Проведенные исследования подтвердили возможность эффективно формировать множества ключевых семантических терминов обучающих материалов с показателями точности поиска до 92,9 % и полноты поиска до 100,0 %. Рассмотрены практические особенности использования специализированного расширения при работе с электронными документами. Изложены факторы, затрудняющие эффективное определение семантических терминов в учебных материалах. Определенная эффективность предложенной технологии способствует ее использованию для решения ряда актуальных задач, таких как оценка соответствия обучающих материалов требованиям, оценка соответствия наборов тестовых заданий обучающим материалам, помощь при создании тестов, автоматизация формирования рефератов и аннотаций к элементам обучающих материалов и прочие. Дальнейшие исследования направлены на анализ влияния на показатели эффективности технологии взаимосвязи между количеством ключевых семантических терминов в результирующем множестве и значением коэффициента плотности ключевых слов и совершенствования рассмотренной информационной технологии для улучшения результатов.
The problem of automation of key terms search in the content of educational materials is investigated. The information technology of automated determination of a set of key semantic terms in the content of educational materials is considered, which is based on the search of used phrases in the text and the disperse evaluation of words importance. In accordance with this information technology, on the basis of the data entered as an educational material file, the structure of a digital document is automatically formed to select an element for analysis, after which segmentation is performed by phrases and terms, the terms are lemmatized and set of them is compactified. On the basis of automatically lemmatized text, a search and disperse evaluation of the importance of words in the chosen fragment is performed, after which the terms importance is calculated, and their number is limited by the value of the keyword density ratio. Input data of information technology is a digital document of educational material, the output data is the corresponding set of key semantic terms of the educational material. The results of the analysis of the regularities of the existing sets of key semantic terms are also described. The test software that allows to automate the determination of sets of key semantic terms using this information technology is considered. Conducted investigations confirmed the possibility of effectively forming the set of key semantic terms of educational materials, evaluated search precision metrics up to 92.9 % and search recall up to 100.0 %. The practical features of the use of specialized extension for working with electronic documents are considered. The factors that complicate effective search of semantic terms in educational materials are described. The established effectiveness of the proposed technology allows use it to solution a number of urgent tasks, such as determination the conformity of educational materials to content requirements, determination the conformity of sets of test tasks to educational materials, semantic assistance in creating tests, automation of the creation of abstracts and annotations to the elements of educational materials, etc. Further researches are aimed at analyzing the impact on the effectiveness of the technology of the relationship between the number of key semantic terms in the resulting set and the value of the keyword density ratio and improve of the information technology considered to improve the results.