Коэффициент ранговой корреляции Спирмена (Spearman's rank correlation coefficient)

Синонимы: Spearman's rank-order correlation coefficient, ро-коэффициент

Разделы: Метрики

Как и любой коэффициент ранговой корреляции, коэффициент Спирмена используется для обнаружения и описания статистической зависимости между признаками, а также проверки гипотез о наличии этой зависимости. Он был предложен английским статистиком и психологом Чарльзом Спирманом в 1904 году и обычно обозначается греческой буквой или . Получил популярность при решении задач в бизнес-аналитике.

Расчет коэффициента ранговой корреляции Спирмена включает следующие этапы:

  1. Присвоить по каждому из признаков, зависимость между которыми требуется определить, порядковый номер (ранг) для каждого наблюдения по возрастанию или убыванию.
  2. Определить разности рангов каждой пары сопоставляемых значений ().
  3. Возвести в квадрат каждую разность и суммировать полученные результаты.
  4. Вычислить коэффициент ранговой корреляции по формуле:

, (1)

где — разность между рангами , — число наблюдений, по которым вычисляется коэффициент.

Следует отметить, что данная формула может использоваться только если все рангов являются различными целыми числами. В противном случае следует использовать другое выражение:

,

где и средние значения признаков.

Определить статистическую значимость коэффициента можно с использованием -критерия Стьюдента, рассчитанного по следующей формуле:

.

Если вычисленное значение -критерия меньше табличного при заданном числе степеней свободы, статистическая значимость искомой зависимости низкая. Если больше, то корреляционная связь считается статистически значимой.

При использовании коэффициента ранговой корреляции условно оценивают силу зависимости между признаками следующим образом:

  • — слабая зависимость;
  • — умеренная зависимость;
  • — сильная зависимость.

Также для оценки тесноты связи может использоваться шкала Чеддока:

Абсолютное значение коэффициента Спирмена Сила корреляцонной зависимости
менее 0.3 слабая
от 0.3 до 0.5 умеренная
от 0.5 до 0.7 заметная
от 0.7 до 0.9 высокая
более 0.9 очень высокая

Рассмотрим пример. Пусть задан исходный набора данных:

Признак 1 Признак 2
56 66
75 70
45 40
71 60
62 65
64 56
58 59
80 77
76 67
61 63

Упорядочим значения признаков по убыванию и каждому присвоим ранг

Ранг Признак 1 Признак 2
1 80 77
2 76 70
3 75 67
4 71 66
5 64 65
6 62 63
7 61 60
8 58 59
9 56 56
10 45 40

Вычислим и :

Признак 1 Признак 2 R1 R2 d=R1-R2 d^2
56 66 9 4 5 25
75 70 3 2 1 1
45 40 10 10 0 0
71 60 4 7 3 9
62 65 6 5 1 1
64 56 5 9 4 16
58 59 8 8 0 0
80 77 1 1 0 0
76 67 2 3 1 1
61 63 7 6 1 1

Где и ранги Признака 1 и Признака 2 соответственно.

Вычисляем сумму квадратов разностей из формулы 1:

Теперь вычислим коэффициент ранговой корреляции по формуле 1:

Таким образом в исходном наборе данных имеет место заметная положительная зависимость между признаками.

Преимущество коэффициента ранговой корреляции Спирмена заключается в возможности ранжирования по качественным признакам, которые нельзя выразить численно: можно ранжировать субъективные экспертные оценки, например, популярности товара или услуги, степени лояльности клиента или надёжности заёмщика. Т.е. он подходит как для непрерывных, так и для дискретных порядковых переменных Можно ранжировать оценки разных экспертов и найти их корреляции, чтобы затем исключить из рассмотрения оценки эксперта, слабо коррелированные с оценками других экспертов.

Не рекомендуется использовать коэффициент Спирмена, если имеет место неравномерное распределение значений измеряемой величины, т.е. в данных присутствуют аномальные значения и выбросы.

В Loginom существует специализированный обработчик Корреляционный анализ с использованием которого можно рассчитывать коэффициент ранговой корреляции Спирмена.