Расстояние Хэмминга (Hamming distance) Скачать в PDF

Синонимы: Кодовое расстояние

Разделы: Метрики

В теории информации и анализе данных расстояние Хэмминга между двумя строками или векторами одинаковой длины — это количество позиций, в которых соответствующие символы различны. Таким образом, для векторов и оно может быть записано в виде:

,

где

Оно измеряет минимальное количество перестановок, необходимое для замены одной строки на другую, или, что то же самое, минимальное количество ошибок, которые могли бы преобразовать одну строку в другую.

Справедливо, , т.е. расстояние Хэмминга всегда меньше длины векторов (строк), между которыми оно измеряется.

В более общем контексте расстояние Хэмминга — это одна из нескольких строковых метрик для измерения расстояния редактирования между двумя последовательностями. Оно названо в честь американского математика Ричарда Хэмминга.

Например, пусть , а , тогда .

С помощью расстояния Хемминга можно представлять степень близости друг к другу категориальных величин. Например, закодируем с помощью унитарного кода слова:

Слово Код
Красный 100
Синий 010
Зеленый 001

Несложно увидеть, что расстояние между словами будет равно 2. Если для двух строк , то говорят, что они являются соседними.

Определение степени близости категориальных значений с помощью расстояния Хэмминга открывает возможность для их использования в машинном обучении, в частности, в алгоритмах классификации и кластеризации.