Регрессия (Regression) Скачать в PDF
В теории вероятности и математической статистике это зависимость математического ожидания случайной величины от одной или нескольких других случайных величин.
В отличие от чисто функциональной зависимости , где каждому значению независимой переменной соответствует единственное значение зависимой переменной , регрессионная зависимость предполагает, что каждому значению переменной могут соответствовать различные значения , обусловленные случайной природой зависимости.
Если некоторому значению величины соответствует набор значений величин , то зависимость средних арифметических:
от и является регрессией в статистическом понимании данного термина.
Типичным примером регрессионной зависимости может быть зависимость между ростом и весом человека. В большинстве случае вес пропорционален росту, но фактически большой рост не всегда означает большой вес. Иными словами, у роста, например, 175 см. может наблюдаться несколько значений веса, скажем 69, 78 и 86 кг. Тогда зависимость между ростом и средним значением указанных весов будет являться регрессионной.
Изучение регрессии в теории вероятностей основано на том, что случайные величины и , имеющие совместное распределение вероятностей, связаны статистической зависимостью: при каждом фиксированном значении , величина является случайной величиной с определенным (зависящим от значения ) условным распределением вероятностей.
Регрессия величины по величине определяется условным математическим ожиданием , вычисленным при условии, что .
Уравнение называется уравнением регрессии, а соответствующий график — линией регрессии по . Точность, с которой уравнение по отражает изменение в среднем при изменении , измеряется условной дисперсией величины , вычисленной для каждого значения .
Если при всех значениях , то можно достоверно утверждать, что и связаны строгой функциональной зависимостью . Если при всех значениях и не зависит от , то говорят, что регрессионная зависимость по отсутствует.
Линии регрессии обладают следующим замечательным свойством: среди всех действительных функций минимум математического ожидания достигается для функции .
Это означает, что регрессия по дает наилучшее в указанном смысле представление величины по величине . Это свойство позволяет использовать регрессию для предсказания величины по .
Иными словами, если значение непосредственно не наблюдается и эксперимент позволяет регистрировать только , то в качестве прогнозируемого значения можно использовать величину .
Наиболее простым является случай, когда регрессионная зависимость по линейна, т.е. , где и — коэффициенты регрессии. На практике обычно коэффициенты регрессии в уравнении неизвестны, и их оценивают по наблюдаемым данным.
Регрессия широко используется в аналитических технологиях при решении различных бизнес-задач, таких как прогнозирование (продаж, курсов валют и акций), оценивание различных бизнес-показателей по наблюдаемым значениям других показателей (скоринг), выявление зависимостей между показателями и т.д.
В Loginom существует специализированный обработчик логистическая регрессия, с помощью которого можно оценивать вероятность того, что событие наступит для конкретного объекта испытания (больной/здоровый, возврат кредита/дефолт и т.д.). И обработчик линейная регрессия, который может использоваться для решения различных задач, например, прогнозирования и численного предсказания.
Логистическая регрессия является традиционным статистическим инструментом для расчета коэффициентов (баллов) скоринговой карты на основе накопленной кредитной истории. Подробнее в статье «Логистическая регрессия и ROC-анализ — математический аппарат».
О прикладном применении логистической регрессии в двух областях — диагностика заболеваний и оценка кредитоспособности физических лиц узнайте в статье «Применение логистической регрессии в медицине и скоринге».