Построены классификаторы украиноязычных текстов методами Random Forest Classifier, Support Vector Machines, Naive Bayes Сlassifier.и Logistic Regression. Для тренировки этих классификаторов использовался метод контролированного обучения. Суть этого метода заключается в том, что для обучения используется уже готовый классифицированный набор текстов, в качестве которого выступают тексты Брауновский корпуса украинского языка. Лучшие результаты показала модель для классификации украиноязычных текстов на основе метода опорных векторов. Ее средняя точность — 0,80.
Мета роботи — визначити особливості автоматичної класифікації текстів, поданих на українській мові. Результати. БрУК — єдиний корпус українських текстів у відкритому доступі, тексти якого можна використовувати для розробки алгоритмів і методів класифікації українськомовних текстів.
Purpose. Specify the peculiarities of the automated classification of texts written in the Ukrainian language. Results.BrUC is the only corpus of Ukrainian texts on open access, the texts of which can be used to develop algorithms and methods of classification of texts in the Ukrainian language.