Статистическая мощность (Statistical power) Скачать в PDF

Синонимы: Мощность проверки бинарной гипотезы, Power of a test

Разделы: Метрики

В статистической проверке гипотез вероятность того, что нулевая гипотеза будет правильно отклонена тестом, когда соответствующая альтернативная гипотеза , истинна.

Обычно обозначается как , где — вероятность того, что альтернативная гипотеза верна, но решение принимается в пользу нулевой гипотезы, т.е. ошибка второго рода. Тогда вероятность принятия правильного решения при истинной альтернативной гипотезе (мощность) и будет равна . Чем выше эта величина, тем меньше вероятность, что тест совершит ошибку второго рода.

Статистическая мощность варьируется от 0 до 1, и по мере увеличения мощности теста количество ошибок второго рода из-за ошибочного отказа отвергнуть нулевую гипотезу уменьшается.

Если — вероятность ошибки второго рода, известной также, как «ложноотрицательный результат», то можно интерпретировать как вероятность «истинно положительного результата», т. е. правильного отклонения нулевой гипотезы.

Если обозначить как вероятность ошибки первого рода, известной как «ложное срабатывание», а — вероятность «истинно отрицательного результата», т. е. правильного отклонения нулевой гипотезы, то можно составить следующую таблицу сопряженности.

истина ложна
отклонена
принята

Таким образом, для вероятности ошибки второго рода статистическая мощность равна . Например, если статистическая мощность эксперимента равна 0.70, а эксперимента равна 0.95, то вероятность, что в ходе эксперимента имела место ошибка второго рода выше, чем в эксперименте . Это снижает чувствительность эксперимента к обнаружению значимых эффектов. Т.е. эффект должен быть более выраженным, чтобы быть обнаруженным.

Эксперимент , следовательно, более надежен, чем эксперимент , из-за меньшей вероятности ошибки первого рода. Ее можно эквивалентно рассматривать как вероятность принятия альтернативной гипотезы когда она истинна, то есть способность теста обнаружить конкретный эффект, если он действительно существует.

В бинарной классификации мощность теста называется чувствительностью или вероятностью правильного обнаружения, когда истинноположительный исход эксперимента в действительности является таковым.