В статье рассматривается проблема разработки методов кластеризации, которые являются устойчивыми к инициализации (количество кластеров и начальные параметры кластеров), к различным по объему кластерам, к выбросам в данных. Предлагается метод оценки кластерной структуры и кластеризации данных, который основан на расчете значений близости объектов данных в многомерном признаковом пространстве. Метод является устойчивым к инициализации параметров кластеризации, к выбросам в данных и позволяет определять кластерную структуру и количество кластеров в ходе самоорганизации объектов данных.
У статті розглядається проблема розробки методів кластеризації, які є стійкими до ініціалізації (кількість кластерів і початкові параметри кластерів), до різних за об’ємом кластерів, до викидів в даних. Пропонується метод оцінки кластерної структури і кластеризації даних, який заснований на розрахунку значень близькості об’єктів даних в багатовимірному ознаковому просторі. Метод є стійким до ініціалізації параметрів кластеризації, до викидів в даних і дозволяє визначати кластерну структуру і кількість кластерів в ході самоорганізації об’єктів даних.
The paper is devoted to the problem of development of the clustering methods, which are robust to initialization (number of clusters and initial cluster parameters), to the different cluster volumes, to the outliers. It is proposed a method for estimation of cluster structure and clustering of data, based on the evaluation of similarity measure between data objects in multidimensional space. The proposed method is robust to initialization of clustering parameters, to outliers and allows definition of cluster structure and number of clusters in the data self-organizing process.