Рассмотрен способ построения систем фильтрации Интернет трафика локальных сетей на основе методов машинного обучения. Огромное количество Интернет ресурсов, основная масса которых на сегодняшний день является динамическими, делают малопригодными традиционные сигнатурные подходы к анализу и фильтрации Интернет информации. Анализ мета информации о ресурсе, такой как URL и тип содержимого, а также анализ содержимого на основе ключевых слов не обладают достаточной точностью, обеспечивающей эффективное решение задачи фильтрации трафика. Авторами предложена оригинальная архитектура, использующая методы машинного обучения для решения задачи многотемной классификации Интернет ресурсов. В работе описаны основные модули системы, их алгоритмы работы и способ организации базы знаний. Разработанная архитектура экспериментально протестирована на эталонных тестовых наборах данных, результаты экспериментов показали достаточно высокую точность и скорость работы.
This report gives an overview of a method of constructing an Internet traffic filtering system based on machine learning approach. Large number of Internet resources, most of which today are dynamic, make little use of traditional signature approaches to the analysis and filtering of Internet information. Analysis of Internet resource meta-information, such as its URL and content type, or analysis based on keywords does not have sufficient accuracy to perform effective traffic filtering. The authors propose an original architecture, which uses machine-learning techniques to perform online multi-class multi-label classification of Internet resource content. This paper describes main modules, algorithms and knowledge base structure of such Internet traffic filtering system. Proposed architecture and algorithms were successfully implemented and tested on standard test data sets. Experiment results have shown fairly high accuracy and speed.