Проведен анализ оценок классификаторов на основании определения информационной ценности признаков классификации. Рассмотрены этапы предварительной обработки документов и их классификации на базе современных подходов. Классификация проводится с использованием как отдельных классификаторов, так и компонентного подхода ассамблеи. Ассамблеи классификаторов используют композицию с изменением обучающей выборки и сочетанием классификаторов различного типа. Предложен подход, который позволяет определить элементы классификации, которые имеют информационную ценность, и обобщающие свойства путем оценки степени сходства между ними на основании результатов классификации.
Проведено аналіз оцінок класифікаторів на підставі визначення інформаційної цінності ознак класифікації. Розглянуто етапи попередньої обробки документів та їх класифікації на базі сучасних підходів. Класифікація проводиться з використанням як окремих класифікаторів, так і компонентного підходу асамблеї. Асамблеї класифікаторів використовують композицію зі зміною навчальної вибірки та поєднанням класифікаторів різного типу. Запропоновано підхід, який дозволяє визначити елементи класифікації, що мають інформаційну цінність, та узагальнюючі властивості шляхом оцінки міри подібності між ними на підставі результатів класифікації.
An analysis of the classifiers’ assessments based on the definition of information value of classification features is carried out. The stages involved in the preprocessing of documents and the classification of documents based on modern approaches are considered. The classification is done using both individual classifiers and the compo-nent approach of the assembly of classifiers. Assembly of classifiers uses composi-tion to change the sample and combine the classifiers of different nature. An ap-proach is introduced that identifies the elements of the classification that are of informational value and have the property of generalization by evaluating the meas-ure of similarity between them based on the results of the classification.