Расстояние Хэмминга (Hamming distance) Скачать в PDF
Синонимы: Кодовое расстояние
Разделы: Метрики
В теории информации и анализе данных расстояние Хэмминга между двумя строками или векторами одинаковой длины — это количество позиций, в которых соответствующие символы различны. Таким образом, для векторов и оно может быть записано в виде:
,
где
Оно измеряет минимальное количество перестановок, необходимое для замены одной строки на другую, или, что то же самое, минимальное количество ошибок, которые могли бы преобразовать одну строку в другую.
Справедливо, , т.е. расстояние Хэмминга всегда меньше длины векторов (строк), между которыми оно измеряется.
В более общем контексте расстояние Хэмминга — это одна из нескольких строковых метрик для измерения расстояния редактирования между двумя последовательностями. Оно названо в честь американского математика Ричарда Хэмминга.
Например, пусть , а , тогда .
С помощью расстояния Хемминга можно представлять степень близости друг к другу категориальных величин. Например, закодируем с помощью унитарного кода слова:
Слово | Код |
---|---|
Красный | 100 |
Синий | 010 |
Зеленый | 001 |
Несложно увидеть, что расстояние между словами будет равно 2. Если для двух строк , то говорят, что они являются соседними.
Определение степени близости категориальных значений с помощью расстояния Хэмминга открывает возможность для их использования в машинном обучении, в частности, в алгоритмах классификации и кластеризации.