Метод редукции мажоритарного класса в несбалансированных выборках

Домашня сторінка
→
Фізико-технічні та математичні науки
→
Відділення інформатики
→
Реєстрація, зберігання і обробка даних
→
Реєстрація, зберігання і обробка даних, 2018 (том 20)
→
Реєстрація, зберігання і обробка даних, 2018, № 1
→
Переглянути статтю

Метод редукции мажоритарного класса в несбалансированных выборках

Інші назви: Метод редукції мажоритарного класу в незбалансованих вибірка
The majority classes’ reducing method of imbalanced datasets

Тема: Технічні засоби отримання і обробки даних

УДК: 004.93

Інший ID: DOI: https://doi.org/10.35681/1560-9189.2018.20.1.142902

URI: http://dspace.nbuv.gov.ua/handle/123456789/168688

Посилання: Метод редукции мажоритарного класса в несбалансированных выборках / Д.А. Каврин, С.А. Субботин // Реєстрація, зберігання і обробка даних. — 2018. — Т. 20, № 1. — С. 51–59. — Бібліогр.: 14 назв. — рос.

Дата: 2018

Завантажень: 384

Метод редукции мажоритарного класса в несбалансированных выборках

Анотація:

Рассмотрены проблемы формирования обучающих выборок для построения диагностических и распознающих моделей по прецедентам в условиях несбалансированности классов. Предложен метод автоматизации формирования обучающих выборок из исходных несбалансированных выборок большого размера. Метод позволяет значительно сократить размер исходной выборки с сохранением важных топологических свойств путем редукции мажоритарного класса и восстановить количественный баланс классов. Разработано программное обеспечение, реализующее предложенный метод, которое было использовано при проведении вычислительных экспериментов на синтетических и реальных данных. Проведенные эксперименты подтвердили работоспособность и эффективность предложенного метода и реализующего его программного обеспечения.

Розглянуто проблему формування навчальних вибірок для побудови діагностичних і розпізнавальних моделей за прецедентами в умовах незбалансованості класів. Запропоновано метод автоматизації формування навчальних вибірок з вихідних незбалансованих вибірок великого розміру. Метод дозволяє значно скоротити розмір вихідної вибірки зі збереженням важливих топологічних властивостей шляхом редукції мажоритарного класу та відновити кількісний баланс класів. Розроблено програмне забезпечення, що реалізує запропонований метод, яке було використано при виконанні обчислювальних експериментів на синтетичних і реальних даних. Проведені експерименти підтвердили працездатність та ефективність запропонованого методу та програмного забезпечення, що його реалізує.

The problem of the sample selection from the imbalanced large-sized datasets has been addressed for constructing of the diagnostic and pattern recognition models. The goal of the work is the creation of the sampling’s automatization method from the imbalanced large-sized dataset, based on the principles of undersampling. The method of automatization of sample selection from the original imbalanced large-sized dataset has been proposed. he software implementing proposed method has been developed and used in the computational experiments on synthetic and real imbalanced datasets. The conducted experiments confirmed the efficiency and working capacity of the proposed method and its implemented software.

Показати повний запис статті