Регрессия (Regression)

В теории вероятности и математической статистике это зависимость математического ожидания случайной величины от одной или нескольких других случайных величин.

В отличие от чисто функциональной зависимости , где каждому значению независимой переменной соответствует единственное значение зависимой переменной , регрессионная зависимость предполагает, что каждому значению переменной могут соответствовать различные значения , обусловленные случайной природой зависимости.

Если некоторому значению величины соответствует набор значений величин , то зависимость средних арифметических:

от и является регрессией в статистическом понимании данного термина.

Типичным примером регрессионной зависимости может быть зависимость между ростом и весом человека. В большинстве случае вес пропорционален росту, но фактически большой рост не всегда означает большой вес. Иными словами, у роста, например, 175 см. может наблюдаться несколько значений веса, скажем 69, 78 и 86 кг. Тогда зависимость между ростом и средним значением указанных весов будет являться регрессионной.

Изучение регрессии в теории вероятностей основано на том, что случайные величины и , имеющие совместное распределение вероятностей, связаны статистической зависимостью: при каждом фиксированном значении , величина является случайной величиной с определённым (зависящим от значения ) условным распределением вероятностей.

Регрессия величины по величине определяется условным математическим ожиданием , вычисленным при условии, что .

Уравнение называется уравнением регрессии, а соответствующий график — линией регрессии по . Точность, с которой уравнение по отражает изменение в среднем при изменении , измеряется условной дисперсией величины , вычисленной для каждого значения .

Если при всех значениях , то можно достоверно утверждать, что и связаны строгой функциональной зависимостью . Если при всех значениях и не зависит от , то говорят, что регрессионная зависимость по отсутствует.

Линии регрессии обладают следующим замечательным свойством: среди всех действительных функций минимум математического ожидания достигается для функции .

Это означает, что регрессия по даёт наилучшее в указанном смысле представление величины по величине . Это свойство позволяет использовать регрессию для предсказания величины по .

Иными словами, если значение непосредственно не наблюдается и эксперимент позволяет регистрировать только , то в качестве прогнозируемого значения можно использовать величину .

Наиболее простым является случай, когда регрессионная зависимость по линейна, т.е. , где и коэффициенты регрессии. На практике обычно коэффициенты регрессии в уравнении неизвестны, и их оценивают по наблюдаемым данным.

Регрессия широко используется в аналитических технологиях при решении различных бизнес-задач, таких как прогнозирование (продаж, курсов валют и акций), оценивание различных бизнес-показателей по наблюдаемым значениям других показателей (скоринг), выявление зависимостей между показателями и т.д.

В Loginom существует специализированный обработчик логистическая регрессия, с помощью которого можно оценивать вероятность того, что событие наступит для конкретного объекта испытания (больной/здоровый, возврат кредита/дефолт и т.д.). И обработчик линейная регрессия, который может использоваться для решения различных задач, например, прогнозирования и численного предсказания.

Логистическая регрессия является традиционным статистическим инструментом для расчета коэффициентов (баллов) скоринговой карты на основе накопленной кредитной истории. Подробнее в статье «Логистическая регрессия и ROC-анализ — математический аппарат».

О прикладном применении логистической регрессии в двух областях — диагностика заболеваний и оценка кредитоспособности физических лиц узнайте в статье «Применение логистической регрессии в медицине и скоринге».