Розглянуто проблеми і актуальність екстрагування подій. Проаналізовано основні підходи до екстрагування подій з інформаційних потоків. Сформовано свої методи та підходи до виявлення подій і визначення їхньої новизни (дублювання подій). На основі проведеного досліду запропоновано використовувати технологію екстрагування подій на основі спеціальних словників з тригерами подійності, класифікацією «подія/не подія» за методом класифікації наївного Байеса та екстрагування понять та аналізу на дублювання понять з минулими подіями з бази даних подій. Представлено підходи та алгоритм роботи технології на базі цих методів.
Рассмотрены проблемы и актуальность экстрагирования новых событий. Проанализированы основные подходы к экстрагированию событий с информационных потоков. Сформированы свои методы и подходы к выявлению событий и определения их новизны (дублирование событий). На основе проведенного исследования предложено использовать технологию извлечения событий на основе специальных словарей с триггерами событийности, классификации документов на событие/не событие по методу классификации наивного Байеса и экстрагирования понятий и анализа на дублирование с понятиями прошлых событий из базы данных. Представлены подходы и алгоритм работы технологии на базе данных методов.
It is presented an overview of our approach to information extraction, which is a field of natural language processing that deals with new events from Twitter social network. There are formed methods and approaches into technology for detection events and determine their novelty. On the main base of our approach we offered to use technology of extracting events based on special dictionaries with event triggers, event classification event or not event by the method of classification of naive Bayes and extraction of special concepts and analysis their duplication with past events in some database of events. The approaches and algorithms of the technology based on these methods are presented. There is a steady interest in effective event extraction, due to its conceptual simplicity from one hand, and its potential utility on the other. The task of processing natural language has many problems, some of which cannot be solved within the framework of this technology, but the solution of which could improve the effectiveness of detecting new events.