Рассмотрены проблемы формирования обучающих выборок для построения диагностических и распознающих моделей по прецедентам в условиях несбалансированности классов. Предложен метод автоматизации формирования обучающих выборок из исходных несбалансированных выборок большого размера. Метод позволяет значительно сократить размер исходной выборки с сохранением важных топологических свойств путем редукции мажоритарного класса и восстановить количественный баланс классов. Разработано программное обеспечение, реализующее предложенный метод, которое было использовано при проведении вычислительных экспериментов на синтетических и реальных данных. Проведенные эксперименты подтвердили работоспособность и эффективность предложенного метода и реализующего его программного обеспечения.
Розглянуто проблему формування навчальних вибірок для побудови діагностичних і розпізнавальних моделей за прецедентами в умовах незбалансованості класів. Запропоновано метод автоматизації формування навчальних вибірок з вихідних незбалансованих вибірок великого розміру. Метод дозволяє значно скоротити розмір вихідної вибірки зі збереженням важливих топологічних властивостей шляхом редукції мажоритарного класу та відновити кількісний баланс класів. Розроблено програмне забезпечення, що реалізує запропонований метод, яке було використано при виконанні обчислювальних експериментів на синтетичних і реальних даних. Проведені експерименти підтвердили працездатність та ефективність запропонованого методу та програмного забезпечення, що його реалізує.
The problem of the sample selection from the imbalanced large-sized datasets has been addressed for constructing of the diagnostic and pattern recognition models. The goal of the work is the creation of the sampling’s automatization method from the imbalanced large-sized dataset, based on the principles of undersampling. The method of automatization of sample selection from the original imbalanced large-sized dataset has been proposed. he software implementing proposed method has been developed and used in the computational experiments on synthetic and real imbalanced datasets. The conducted experiments confirmed the efficiency and working capacity of the proposed method and its implemented software.