Медиана (Median) Скачать в PDF
Синонимы: Медиана статистическая, Непараметрическая средняя
Разделы: Метрики
Медиана (от лат. mediana — средина, срединный) — статистическая характеристика распределения случайной величины. Наряду с модой и математическим ожиданием медиана определяет центр распределения, т.е. область, в которой его значения наиболее вероятны.
На практике это означает, что если признак некоторого объекта принимает значение, близкое к медианному, то оно является типичным для данной выборки. Если же значение оказывается далеким от медианы (как говорят, расположено в «хвосте» распределения), то у аналитика возникает повод задуматься о том, какими закономерностями исследуемого процесса вызвано такое отклонение и не является ли оно выбросом или аномальным значением.
Если определять медиану в контексте распределения случайной величины, то она представляет собой значение, которое делит площадь под кривой функции распределения на две равные части. Это означает, что суммарные вероятности значений слева и справа от медианы равны, т.е.
,
где — случайная величина, — медиана.
Если распределение симметричное, то мода, математическое ожидание и медиана совпадают. Если симметрия распределения нарушается, то медиана смещается от моды в сторону более длинного «хвоста». При этом медиана всегда меньше математического ожидания.
Медиана относится к классу непараметрических статистик, поскольку для ее определения не требуется каких-либо предположений о распределении случайной величины, для которой она вычисляется. Медиана имеет смысл только для упорядочиваемых данных, значения которых могут быть ранжированы.
Если случайная величина задана не функцией распределения вероятности , а набором выборочных значений признака (дискретным рядом), то медиана вычисляется следующим образом:
Упорядочить (расположить в порядке неубывания) значения набора данных: , где — количество элементов выборки.
Определить номер медианного элемента выборки по формуле .
Полученное значение будет точно показывать, где находится элемент ряда, значение которого является медианным.
Например, пусть задана последовательность [7, 14, 10, 12, 16, 9, 11]. Для вычисления медианы упорядочим ее: [7, 9, 10, 11, 12, 14, 16]. Тогда номер медианного элемента , следовательно, медиана равна 11.
Если четное, то номер медианного элемента оказывается дробным. Например, при номер медианного элемента окажется . В этом случае берут значения 4-го и 5-го элементов и вычисляют их среднее. Т.е. медиана в случае нечетного размера выборки определяется как среднее двух срединных значений ряда ее ранжированных элементов. Легко увидеть, что номер первого усредняемого значения при четном будет , а второго .
В анализе данных медиана может использоваться как альтернатива среднего значения, устойчивая к выбросам и аномальным значениям. Действительно, из-за ранжирования аномально большие и аномально низкие значения всегда будут оказываться в начале или конце ряда и никогда не станут медианными.
Медиана является порядковой статистикой распределения и может быть выражена через другие порядковые статистики (т.е. получаемые при ранжировании). Она является 50-м персентилем, 0,5-квантилем или вторым квартилем выборки или распределения.
В Loginom существует специализированный обработчик группировка, который позволяет объединять записи избранных полей в группы, а для оставшихся полей вычислять статистические показатели (медиану, сумму, среднее, минимум и т.д.). А также визуализаторы статистика и качество данных, в перечень показателей которых включена медиана.