Доверительный интервал (Confidence interval)

Разделы: Метрики

В математической статистике — интервал, в пределах которого с заданной вероятностью лежат выборочные оценки статистических характеристик генеральной совокупности.

В большинстве случаев статистические исследования проводятся не на генеральной совокупности, а на некоторой выборке из нее. Это связано с тем, что генеральная совокупность может быть очень большой, сбор всех ее наблюдений очень дорог или даже невозможен. Тогда исследования проводятся на выборке, а полученные результаты обобщаются на всю совокупность.

Очевидно, что статистические характеристики совокупности будут отличаться от выборочных на некоторую величину, называемую смещением. Допустим, мы посчитали среднюю зарплату на предприятии, учитывая всех работающих (скажем, 1 000 человек) и получили значение 35 тыс. рублей. Затем мы посчитали среднее по выборке из 200 случайно отобранных сотрудников и обнаружили, что выборочное среднее оказалось равно 32 тыс. рублей. Механизм смещения понятен — в выборку не попали несколько сотрудников с аномально высокими зарплатами (руководители предприятия, начальники подразделений).

Если все значения исследуемого признака в генеральной совокупности примерно одинаковы, то статистики, измеренные по совокупности и по выборке, тоже будут примерно одинаковыми (смещение будет мало). Если же изменчивость признака в генеральной совокупности высокая, то и смещение может быть значительным. Таким образом, высокое значение смещения отражает степень недостоверности предположения о том, что статистические свойства выборки можно обобщить на всю совокупность.

Если выборка случайная, то, выполняя ее, мы каждый раз будем получать новые значения выборочных статистик. Следовательно, оценивать само смещение бессмысленно. Вместо этого оценивают интервал, в который с заданным уровнем вероятности попадут выборочные оценки статистических характеристик, который и называется доверительным.

Чем шире доверительный интервал для заданного уровня вероятности (скажем, 95%), тем ниже уровень «доверия» к выборочным оценкам, и наоборот. Широкий доверительный интервал для выборочного среднего указывает на неточное отражение средней по совокупности. Причиной этого может быть недостаточный объем выборки, ее неоднородность, наличие в ней аномалий и т.д. Иными словами, чем уже доверительный интервал, тем надежнее выборочная оценка.

Вероятность, связанную с доверительным интервалом, называют доверительной вероятностью. Если доверительный интервал строится по уровню 95%, то соответствующая доверительная вероятность будет 5%, или 0,05, для интервала по уровню 98% — 2%, или 0,02, и т.д.

Интерпретировать доверительную вероятность можно следующим образом: это вероятность, с которой можно принять гипотезу о том, что выборочная оценка и оценка по генеральной совокупности различаются значимо, и следовательно, выборочная оценка не вызывает доверия как характеристика всей генеральной совокупности.