Рассмотрена задача кластеризации многомерных временных рядов (векторных и матричных) различной длины в условиях неизвестного количества классов и их взаимного пересечения. Предложен метод решения этой задачи на основе гибридизации иерархического агломеративного и нечеткого, основанного на центроидах, подходов с использованием метрики Левенштейна. Процесс кластеризации сводится к последовательности элементарных операций над матрицей расстояний между анализируемыми исходными последовательностями. Развиваемый подход крайне прост с вычислительной точки зрения, позволяет решать задачи кластеризации временных рядов произвольной природы как в условиях неопределенности относительно количества классов данных, так и их формы и уровня взаимного пересечения.
Істотне збільшення обсягу даних, що підлягають аналізу і обробці, вимагає запровадження нових ефективних засобів і методів їх збору та зберігання. Особливо актуальною така задача стає при аналізі мультимедійних, зокрема, відеоданих, в силу їх значної надмірності. Один із шляхів зниження обсягу оброблюваної інформації — кластеризація/сегментація відеопослідовностей для виділення однорідних за змістом сегментів. При цьому виникає завдання вибору необхідної кількості кластерів як вихідної інформації. Стаття присвячена розробці гібридного методу кластеризації для аналізу відеопослідовностей різної довжини. Метод зберігає переваги і виключає недоліки агломеративної ієрархічної і нечіткої кластеризації. Для визначення подібності між сегментами відеопослідовностей використовується метрика Левенштейна, що дозволяє розраховувати відстані між багатовимірними послідовностями різної довжини. Критерієм завершення процесу кластеризації в цілому, і, відповідно, якість одержуваного результату визначається індексом Данна. Запропонований гібридний підхід до кластеризації відеопослідовностей відрізняється обчислювальною простотою реалізації і дозволяє вирішувати завдання аналізу багатовимірних часових рядів довільної природи в тому випадку, коли заздалегідь складно визначити необхідну кількість кластерів для розбиття і в умовах невизначеності щодо можливого їх перекриття, тобто в разі, коли результатом кластеризації є побудова покриття, а не розбиття даних.
A significant increase in the amount of data to be analyzed and processed requires the introduction of new efficient tools and methods for their collection and storage. This task is especially important when analyzing multimedia, in particular, video data, due to their great redundancy. One of the ways to reduce the amount of information processed is clustering / segmentation of video sequences to isolate parts that are homogeneous in content. This raises the problem of choosing the required number of clusters as source information. The article is devoted to the development of a hybrid clustering method for analyzing video sequences of various lengths. The method saves the advantages and eliminates the disadvantages of agglomerative hierarchical and fuzzy clusterings. To determine the similarity between segments of video sequences, the Levenshtein metric is used, which allows to calculate the distances between multidimensional sequences of different lengths. The criterion for the clustering process completion as a whole, and, accordingly, the result quality is determined by the Dunn index. The proposed hybrid approach to clustering video sequences is computationally simple to implement and allows solving the multidimensional time series analysis problems of arbitrary nature in the case when it is difficult to determine in advance the necessary number of clusters for splitting and under conditions of uncertainty about their possible overlap, i.e. in the case where the clustering result is the cover construction, and not data partitioning (exact cover construction).