Дан обзор индексных структур для быстрого поиска по сходству объектов, представленных вещественными векторами. Рассмотрены структуры как для точного, так и для более быстрого, но приближенного поиска. Представлены главным образом индексные структуры на основе разбиения на области (в том числе иерархические) и графов соседства. Обсуждено также ускорение поиска по сходству с использованием преобразования исходных данных. Изложены идеи конкретных алгоритмов, включая недавно предложенные. Проведено сравнение подходов к ускорению поиска по сходству в индексных структурах рассмотренных типов, а также на основе сохраняющего сходство хэширования.
Наведено огляд індексних структур для швидкого пошуку за схожістю об’єктів, що представлені дійсними векторами. Розглянуто структури як для точного, так і для наближеного пошуку. Проаналізовано головним чином індексні структури на основі розбиття на області (у тому числі ієрархічні) та графів сусідства. Обговорено також прискорення пошуку за схожістю з використанням перетворення вхідних даних. Викладено ідеї конкретних алгоритмів (відомих та нещодавно запропонованих). Наведено порівняння підходів до прискорення пошуку за схожістю в індексних структурах розглянутих типів, а також на основі хешування, що зберігає схожість.
In this survey paper, we consider index structures for fast similarity search of objects represented by real-valued vectors. Structures for both exact and faster, but approximate, similarity search are considered. We present index structures mainly on the basis of partitioning into regions (including hierarchical ones) and neighborhood graphs. The acceleration of the similarity search using the transformation of the original data is also discussed. The ideas of specific algorithms, including the recently proposed ones, are outlined. The approaches to the speed-up of similarity search in the index structures of the considered types and those based on similarity-preserving hashing are discussed and compared.