Наукова електронна бібліотека
періодичних видань НАН України

Extracting structure from text documents based on machine learning

Репозиторій DSpace/Manakin

Показати простий запис статті

dc.contributor.author Kudim, K.A.
dc.contributor.author Proskudina, G.Yu.
dc.date.accessioned 2023-03-10T18:57:03Z
dc.date.available 2023-03-10T18:57:03Z
dc.date.issued 2022
dc.identifier.citation Extracting structure from text documents based on machine learning / K.A. Kudim, G.Yu. Proskudina // Проблеми програмування. — 2022. — № 3-4. — С. 154-160. — Бібліогр.: 5 назв. — англ. uk_UA
dc.identifier.issn 1727-4907
dc.identifier.other DOI: https://doi.org/10.15407/pp2022.03-04.154
dc.identifier.uri http://dspace.nbuv.gov.ua/handle/123456789/188639
dc.description.abstract This study is devoted to a method that facilitates the task of extracting structure from the text documents using an artificial neural network. The method consists of data preparation, building and training the model and results evaluation. Data preparation includes collecting corpora of documents, converting a variety of file formats into plain text, and manual labeling each document structure. Then documents are split into tokens and into paragraphs. The text paragraphs are represented as feature vectors to provide input to the neural network. The model is trained and validated on the selected data subsets. Trained model results evaluation is presented. The final performance is calculated per label using precision, recall, and F1 measures, and overall average. The trained model can be used to extract sections of documents bearing similar structure. uk_UA
dc.description.abstract Дослідження присвячене методу, що вирішує задачу автоматичного витягу структури з слабо структурованих текстових документів за допомогою штучної нейронної мережі. Метод складається з підготовки даних, побудови та навчання моделі та оцінки результатів. Підготовка даних включає збирання корпусів документів, перетворення різних форматів файлів у звичайний текст і ручне маркування структури кожного документа. Потім документи розбиваються на слова та абзаци. Абзаци тексту представлені як вектори ознак для забезпечення вхідних даних для нейронної мережі. Модель навчена та перевірена на вибраних підмножинах даних. Представлена оцінка результатів навченої моделі. Остаточна ефективність розраховується для кожної мітки з використанням F1-оцінки, точності та повноти, а також загального середнього значення. Навчену модель можна використовувати для витягу розділів документів, що мають подібну структуру. uk_UA
dc.language.iso en uk_UA
dc.publisher Інститут програмних систем НАН України uk_UA
dc.relation.ispartof Проблеми програмування
dc.subject Моделі і засоби систем баз даних та знань uk_UA
dc.title Extracting structure from text documents based on machine learning uk_UA
dc.title.alternative Витяг структури з текстових документів на основі машинного навчання uk_UA
dc.type Article uk_UA
dc.status published earlier uk_UA
dc.identifier.udc 004.82


Файли у цій статті

Ця стаття з'являється у наступних колекціях

Показати простий запис статті

Пошук


Розширений пошук

Перегляд

Мій обліковий запис