Анотація:
Новостные потоки информации, публикуемой на веб-сайтах сети Интернет, включают сообщения, важнейшие и интереснейшие из которых многократно дублируются (в виде перепечаток или содержательных
пересказов). Системы автоматического контент-мониторинга, сетевые информационно-поисковые системы содержат отдельные компоненты,
предназначенные для определения содержательного дублирования. При этом
проблема качества выявления подобных документов при использовании различных критериев является открытой научно-практической проблемой. В данной статье описываются критерии качества выявления подобных документов, основанные на анализе таких свойств так называемой матрицы
подобия, как симметричность и транзитивность. Ранее близкие по смыслу
критерии рассматривались авторами в работе [1], в настоящей статье представлены более точные и универсальные аналитические выражения для расчета этих критериев, а также приведены результаты экспериментов на
многоязычных текстовых корпусах, формируемых с помощью системы контент-мониторинга InfoStream.