В статье рассмотрено решение задачи автоматического распознавания фрагментов текстового документа, заимствованных из Интернет-доступных источников. Приведена постановка задачи автоматического распознавания плагиата, дается описание системы автоматического распознавания воспроизведенных фрагментов текстовых документов, а также соответствующего алгоритма их обнаружения. Предложенные решения позволяют системе, построенной в соответствии с ними, распознавать случаи заимствования как из заранее заданной полнотекстовой базы данных, так и из полнотекстовой базы данных, полученной в результате автоматического Интернет-поиска по ключевым словам, выделенным из анализируемых документов.
У статті розглянуто рішення задачі автоматичного розпізнавання фрагментів текстового документа, запозичених з Інтернет-доступних джерел. Наведена постановка завдання автоматичного розпізнавання плагіату, дається опис системи автоматичного розпізнавання відтворених фрагментів текстових документів, а також відповідного алгоритму їх виявлення. Запропоновані рішення дозволяють системі, побудованій відповідно до них, розпізнавати випадки запозичення як із заздалегідь заданої повнотекстової бази даних, так і з повнотекстової бази даних, отриманої в результаті автоматичного Інтернет-пошуку за ключовими словами, виділеними з аналізованих документів.
In the article, automatic recognition of the fragments of the text documents adopted from the Internet-available resources is considered. The article presents a definition of plagiarism identification problem, description of the system of the automatic recognition of reproduced fragments of the text documents, as well as the corresponding algorithm of their detection. The submitted solutions allow the system, which is built according to them, to recognize the adoptions both from the given full-text database and full-text database, created due to the automatic Internet search with the key words, marked out from the reviewed documents.