Интерквартильный размах (Interquartile range)

Синонимы: IQR, Midspread, Middle 50%, Fourth spread, H‑spread

Разделы: Метрики

Интерквартильный размах представляет собой порядковую статистику, численно равную разности между 1-м и 3-м квартилями распределения или 25-м и 75-м процентилями. Можно так же сказать, что интерквартильный размах это половина выборки, центрированная относительно медианы.

Интерквартильный размах является удобным показателем изменчивости признака для асимметричных распределений или наборов данных с аномальными значениями. Иными словами его можно рассматривать в качестве аналога дисперсии, который является робастным к выбросам в данных.

Интерквартильный размах

На рисунке интерквартильный размах проиллюстрирован с помощью диаграммы ящик с усами. На нём буквами и обозначены 1-й и 3-й квартили соответственно. Ширина «ящика» показывает интерквартильный размах.

Рассмотрим пример вычисления интерквартильного размаха.

Исходные данные Ранжированные данные
1 75 7
2 31 7
3 7 31
4 87 32
5 115 47
6 121 75
7 47 87
8 155 115
9 116 116
10 119 119
11 177 121
12 7 155
13 32 177

Исходные значения представлены во второй колонке таблицы (13 значений). Чтобы вычислить порядковые статистики, нужно ранжировать значения по возрастанию или убыванию. Сначала найдём медиану — значение ранжированной последовательности справа и слева от которого будет одинаковое число элементов. Несложно увидеть, что в нашем примере .

Затем в каждом интервале слева и справа от медианы нужно найти значения, которые делят эти интервалы на две равные части. Это и будут 2-й и 3-й квартили соответственно. Поскольку в каждом из интервалов оказалось чётное количество значений (поскольку общее число значений ряда нечётное), в качестве квартилей следует взять два срединных значения и усреднить их.

Таким образом, в нашем примере первый квартиль будет , а третий . Следовательно, интерквартильный размах будет .

В анализе данных интерквартильный размах широко используется при оценке качества данных с целью обнаружения в них выбросов и аномальных значений. Например, может быть определено условие, что все значения набора данных, которые откланяются от медианы больше, чем на 3 , считаются выбросами и к ним должны применяться соответствующие методы обработки.

В этом случае интерквартильный размах может быть использован для обнаружения аномальных значений как альтернатива среднеквадратическому отклонению, которое целесообразно применять только для нормально распределённых данных. В то же время интерквартильный размах является непараметрической оценкой, поэтому вообще не требует предположений относительно распределения и может применяться для любых данных.

В аналитической платформе Loginom есть специализированный обработчик Редактирование выбросов, в котором интерквартильный размах может быть вычислен и использован для обнаружения выбросов в данных.