A method and an algorithm for the semantic knowledge network automated construction created from the most informative concepts in the electronic texts are proposed. Аn analysis and comparison of existing methods with their software implementations for information research in electronic texts are presented. The results of BBC news article analysis using the proposed method are given.
Цель статьи: создание алгоритмической и программной базы для построения семантических сетей знаний из самой релевантной по отношению к контексту документов информации. Методы: предложены комплексная методика, алгоритм и его реализация для построения семантической сети знаний из самой значимой информации в заданных текстах. Предложенный комплексный алгоритм сочетает в себе работу нескольких алгоритмов на основе нейронных сетей и статистического анализа. Комбинация данных алгоритмов позволяет распознавать концепты в тексте, находить между ними связи и определять, какие из концептов должны быть включены в результирующую семантическую сеть с помощью оценки их веса в заданном контексте. Результат: проведён анализ большого текстового корпуса, общей численностью около миллиона слов. На основе собранной информации с помощью разработанного алгоритма и рекурсивной грамматики естественного языка построено семантическую сеть знаний для нескольких текстов и отдельную совмещённую семантическую сеть знаний. Проведено сравнение недостатков и преимуществ разработанного алгоритма по отношению к нескольким уже существующих подходам извлечения знаний из текстов. Продемонстрированы полученные результаты.
Мета статті – створення алгоритмічної і програмної бази для побудови семантичних мереж знань із найбільш релевантної інформації відносно контексту документів. Методи: Запропоновано комплексну методику, алгоритм та його реалізацію для побудови семантичної мережі знань із найбільш значимої інформації у заданих текстах. Запропонований комплексний алгоритм поєднує в собі роботу кількох алгоритмів на основі нейронних мереж та статистичного аналізу. Комбінація даних алгоритмів дозволяє розпізнавати концепти в тексті, знаходити між ними зв’язки та визначати, які із концептів мають бути включені до результуючої семантичної мережі за допомогою оцінки їх ваги. Результат: Проведено аналіз великого текстового корпусу, загальною чисельністю близько мільйону слів. На основі зібраної інформації за допомогою розробленого алгоритму і рекурсивної граматики природної мови побудовано семантичну мережу знань для декількох текстів і окрему поєднану семантичну мережу знань. Проведено порівняння недоліків і переваг розробленого алгоритму по відношенню до кількох вже існуючих підходів вилучення знань із текстів. Продемонстровано отримані результати.