Описан метод итеративного построения терминологий в коллекциях научных текстов на украинском языке. Освещена проблематика автоматизированного построения тезаурусов по составлению научной терминологии. Значительное внимание уделено анализу лексикографических особенностей характеристических фрагментов текста документов. Учтена специфика украиноязычных документов. Основное внимание уделяется решению прикладной задачи построения терминологии с описанием связей в формате RDF из входящих текстов в широкоупотребляемом формате pdf.
Описано метод ітеративної побудови термінологій в колекціях наукових текстів українською мовою. Висвітлено проблематику автоматизованої побудови тезаурусів з складання наукової термінології. Значну увагу приділено аналізу лексикографічних особливостей характеристичних фрагментів тексту документів. Враховано специфіку україномовних документів. Основну увагу приділено розв’язанню прикладної задачі побудови термінології з описом зв’язків в форматі RDF з вхідних текстів в загальновживаному форматі pdf.
We propose a combined method of acquisition of valuable terms and relations from raw texts with corresponding iterative algorithm for automated terminology extraction over Ukrainian-language scientific texts. Special attention is paid to the analysis of lexicographical features of characteristic text fragments of documents. The specific features of Ukrainian-language documents are taken into account. The paper is focused on solving the applied problem of terminology acquisition from raw texts in the widely-used pdf format, with output of term relations described in RDF format.