Рассмотрены методы и алгоритмы быстрой оценки мер расстояния/сходства данных по формируемым вещественным векторам малой раз-мерности. Приведены методы без обучения, использующие главным образом случайное проецирование и сэмплирование. Исходные данные являются в основном векторами большой размерности с различными расстояниями (евклидовым, манхэттеновым, статистическими и др.) и сходствами (скаляр-ным произведением и др.). Обсуждаются и векторные представления невек-торных данных. Получаемые векторы можно также применять в алгоритмах поиска по сходству, машинного обучения и др.
Розглянуто методи і алгоритми швидкої оцінки мір відстані/схожості даних за дійсними векторними представленнями малої розмірності. Досліджено методи без навчання, з використанням випадкової проекції та семпліювання. Вхідні дані є, в основному, векторами великої розмірності з різними мірами відстані (евклідове, манхеттенове, статистичне та ін.) і схожості (скалярний добуток та ін.). Обговорюються також векторні представлення невекторних даних. Отримані вектори можуть також застосовуватися в алгоритмах пошуку за схожістю, машинного навчання тощо.
This survey paper focuses on methods and algorithms for fast estimation of data distance/similarity measures. The estimation is done by real-valued vector representations of small dimension. The discussed methods do not use learning and mainly use random projection and sampling. Initial data are mainly high-dimensional vectors with different distance measures (Euclidean, Manhattan, statistical, etc.) and similarities (dot product etc.). Vector representations of non-vector data are discussed as well. The resultant vectors can also be used for similarity search algorithms, machine learning, etc.