В статье рассматривается задача извлечения из текстов естественного языка структур знаний: информационных объектов («именованных сущностей»), их свойств, связей и фактов участия в действиях. Для этих целей разработан инструментарий: язык представления знаний (расширенные семантические сети – РСС) и их обработки (язык преобразования структур – ДЕКЛ). На этой основе созданы технологии, которые обладают следующими особенностями. Из текстов извлекаются не отдельные объекты (именованные сущности), а структуры знаний, представляющие связи объектов и их участие в действиях и событиях. Для извлечения структур знаний разработан уникальный семантико-ориентированный лингвистический процессор (ЛП), осуществляющий глубинный анализ текстов ЕЯ и выявляющий десятки типов объектов вместе с их структурами. Процессор ЛП управляется лингвистическими знаниями, представляющими собой декларативные структуры и обеспечивающие быструю настройку ЛП на предметную область и язык. Основой лингвистических знаний являются правила, обладающие высокой степенью избирательности при выявлении объектов («сущностей»), средствами устранения коллизий при их применении. Это позволяет минимизировать шумы и потери.
У статті розглядається задача знайдення у текстах природної мови структур знань: інформаційних об’єктів («іменованих сутностей»), їх якостей зв’язків і фактів участі у діях. Для цих цілей розроблений інструментарій: мова представлення знань (розширені семантичні мережі – РСМ) та їх обробки (мова перетворення структур – ДЕКЛ). На цій основі створені технології, що мають наступні особливості. З тестів виділяються не окремі об’єкти (іменовані сутності), а структури знань, що представляють зв’язки об’єктів та їх участь у діях та подіях. З метою виділення структур знань розроблений винятковий
семантико-орієнтований лінгвістичний процесор (ЛП), що здійснює глибинний аналіз текстів ЕЯ та виявляє десятки типів об’єктів разом з їх структурами. Процесор ЛП керується лінгвістичними знаннями, які представляють собою декларативні структури та забезпечують швидке настроювання ЛП на предметну сферу та мову. Основою лінгвістичних знань є правила, що мають високий ступінь вибірковості при виявленні об’єктів («сутностей»), засобами усунення колізій при їхньому використанні. Це дозволяє мінімізувати шуми та втрати.
The paper is devoted to the extracting of knowledge structures from the natural language texts, i.e. information objects (“Named Entities”), their features, relationships, and participation in the actions and events. For this purpose, the language used for knowledge representation (extended semantic networks/ESN) and tools for processing (language for structure conversion LSC) are considered. On this base, the new technologies are proposed. These technologies have the following features: extraction from the texts of knowledge structures that represent the links of named entities and their participation in actions and events. For the knowledge extraction the unique semantic-oriented language processor (LP) are designed. Processor LP provides the deep analysis of NL-texts and revealing set of objects together with their structures. Processor LP is controlled by the linguistic knowledge, which are declarative structures (on ESN) and which provides the quick tuning of LP on subject area and language, both Russian and English.