Коэффициент ранговой корреляции Кендалла (Kendall rank correlation coefficient)

Синонимы: Kendall rank-order correlation coefficient, Kendall's coefficient, Тау-корреляция

Разделы: Метрики

Коэффициент ранговой корреляции Кендалла является статистической мерой силы зависимости признаков, представленных в порядковой (ранговой) шкале. Он является альтернативой коэффициента ранговой корреляции Спирмена, которую предпочтительнее использовать в случае малых размеров выборок. Предложен известным английским статистиком Морисом Кендаллом в 1938 году.

Поскольку корреляция Кендалла является ранговой, то для оценки силы зависимости между признаками, используются не их значения, а соответствующие им ранги. Коэффициент инвариантен по отношению к любому монотонному преобразованию шкалы измерения (по возрастанию или убыванию).

Так же, как и другие меры ранговой корреляции, коэффициент Кендалла является непараметрической оценкой, т.е. не требует каких-либо предположений относительно распределения значений набора данных и его параметров. Это существенно упрощает его использование.

Коэффициент корреляции Кендалла использует пары наблюдений и определяет силу связи на основе шаблона согласованности (concordant) и несогласованности (disconcordant) между парами.

Пусть задан набор наблюдений, представленных парами значений , где и — признаки, между которыми ищется зависимость, — число наблюдений.

Введём в рассмотрение понятие конкордантности (согласованности) и дискоркондантности (несогласованности) наблюдений. В статистике согласованными называются пары наблюдений и , если для них выполняется правило:

,

где

Иными словами, в согласованной паре оба элемента одной пары больше, равны или меньше соответствующих элементов другой пары. Напротив, несогласованной называется пара наблюдений для которой выполняется:

,

что имеет место когда одна пара содержит более высокое значение , то другая пара содержит более высокое значение .

Количество несогласованных пар в наборе наблюдений называют тау-расстоянием Кендалла или ранговым расстоянием Кендалла. Оно представляет собой метрику, которая подсчитывает количество попарных расхождений между двумя ранжированными наборами значений признаков. Чем больше это расстояние, тем больше отличаются два признака, и, следовательно, тем меньше зависимость между ними.

Обозначим (concordant) — число согласованных пар, (disconcordant) — число несогласованных пар. Тогда коэффициент ранговой корреляции Кендалла вычисляется следующим образом:

.

Поскольку знаменатель данного выражения представляет собой общее количество парных комбинаций, коэффициент изменяется в диапазоне . Значение имеет место, если , т.е. все пары несогласованы. если , т.е. количество согласованных и несогласованных пар совпадают. И, наконец, в случае, когда , т.е. все пары являются согласованными.

Интерпретация коэффициента ранговой корреляции Кендалла выглядит следующим образом:

  • если соответствие между обоими рейтингами идеальное, коэффициент имеет значение 1 (т.е. большему рейтингу ) в паре всегда соответствует больший рейтинг ;
  • если соответствие между двумя рейтингами отсутствует, коэффициент имеет значение -1 (т.е. большему рейтингу ) в паре всегда соответствует меньший рейтинг ;
  • если коэффициент равен 0 (т.е. половина пар согласованы, а половина нет), то можно считать, что зависимость между признаками отсутствует.

Общее количество пар , которые можно построить для набора данных размером наблюдений, будет:

.

Существует три типа коэффициентов ранговой корреляции Кендалла (tau-a, тау-а), (tau-b, тау-би) и (tau-с, тау-си)

Коэффициент тау-а — вычисляется только на основании количества согласованных и несогласованных пар:

.

Данный метод в литературе часто называют методом конкордации. Для вычисления коэффициента также можно использовать метод пересечений. Если в списке рангов для двух признаков соединить ячейки с одинаковыми рангами с помощью линий (как показано на рисунке ниже), то некоторые линии будут пересекаться. Пересечение линий указывает на несогласованность пары. Интуитивно понятно, что число пересечений будет отражать силу зависимости между ранжированными признаками.

Коэффициент ранговой корреляции Кендалла

Действительно, если пересечений нет, то будет иметь место абсолютная положительная зависимость между признаками и . Если все пары порождают пересечения, то ранги будут разнонаправленными, т.е. имеет место абсолютная отрицательная зависимость, и в этом случае количество пересечений будет равно , т.е. максимальному числу несогласованных пар.

Тогда формула для коэффициента ранговой корреляции Кендалла может быть записана в виде:

,

где — количество пересечений.

В примере на рисунке имеют место 3 пересечения для 8 наблюдений, тогда:

Коэффициент тау-б — учитывает так называемые связанные ранги путём внесения соответствующей поправки. Связанными называются ранги, полученные путём усреднения одинаковых рангов. Количество наблюдений, по которому производится усреднение связанного ранга, называется длиной связи.

Формула для вычисления коэффициента тау-би выглядит следующим образом:

,(1)

где

  • — максимальное число пар;
  • — поправка на связанные ранги по , где — номер группы связей;
  • — поправка на связанные ранги по , где — номер группы связей;
  • — число связанных значений в -й группе связей для (длина связи);
  • — число связанных значений в -й группе связей для ;

Пары, построенные по наблюдениями со связанными рангами, не считаются ни согласованными, ни несогласованными, поэтому не учитываются при расчёте (для них устанавливается 0).

Следует отметить, что иногда в формуле (1) не умножают числитель на 2, а вместо этого используют деление на 2 при вычислении и .

Рассмотрим пример.

ID Ранг X Ранг Y
009 1.5 1
001 1.5 3.5
008 3 3.5
003 4.5 5
012 4.5 6
011 6 2
015 7 8
002 8 7

Для 8 наблюдений может быть построено пар. Пример содержит две группы связей по для наблюдений 009 и 001, и наблюдений 003 и 012, а также одну группу связей по для наблюдений 001 и 008. Как можно увидеть, все связи имеют длину 2.

Для пар, в которых присутствует связанный ранг при расчёте устанавливается 0. По таких пар будет 4 — 009, 001, 003 и 012. По таких пар будет 2 — 001 и 008. Таким образом, в формуле (1) , а — длины связей.

Теперь рассчитаем поправки:

.

Тогда коэффициент тау-би может быть рассчитан следующим образом:

.

Коэффициент тау-си

— учитывает число строк и столбцов в таблице. Здесь:

  • ;
  • — число столбцов и строк в таблице соответственно.

Чаще всего в бизнес-аналитике используется коэффициент тау-би, поэтому когда упоминают ранговый коэффициент корреляции Кендалла обычно имеют в виду именно эту его версию.

В Loginom существует специализированный обработчик Корреляционный анализ, в котором имеется возможность исследовать зависимости между порядковыми признаками с помощью вычисления коэффициента ранговой корреляции Кендалла.