Розглянуто методи та алгоритми швидкої оцінки мір відстані/схожості вхідних даних за векторними представленнями з бінарними або цілочисельними компонентами, що отримані з вхідних даних, які є здебільшого векторами великої розмірності з різними мірами відстані (кутова, евклідова та ін.) та схожості (косинус кута, скалярний добуток та ін.). Обговорено методи без навчання, що використовують головним чином випадкові проекції з наступним квантуванням, а також семплювання. Отримані вектори можна застосовувати в алгоритмах пошуку за схожістю, машинного навчання тощо.
Рассмотрены методы и алгоритмы быстрой оценки мер расстояния/сходства исходных данных по векторным представлениям с бинарными или целочисленными компонентами, полученным из исходных данных, которые являются в основном векторами большой размерности с различными мерами расстояния (угловое, евклидово и др.) и сходства (косинус угла, скалярное произведение и др.). Обсуждены методы без обучения, использующие главным образом случайное проецирование с последующим квантованием, а также сэмплирование. Полученные векторы можно применять в алгоритмах поиска по сходству, машинного обучения и др.
This review focuses on methods and algorithms for fast estimation of distance/similarity measures of initial data by vector representations with binary or integer components obtained from initial data. The initial data are mainly high-dimensional vectors with various distance measures (angular, Euclidean, etc.) or similarity measures (cosine, inner product, etc.). The discussed methods are without training and use mostly random projection followed by quantization, as well as sampling. The resulting vectors can be used for similarity search, machine learning, and other algorithms.