Автокорреляционная функция (Autocorrelation function) АКФ, ACF |
Автокорреляционная функция показывает степень линейной статистической связи между значениями временного ряда. Представляет собой последовательность коэффициентов корреляции между исходным рядом, и его копией, сдвинутой на заданное число интервалов ряда. Позволяет обнаруживать во временных рядах тенденции и циклические компоненты, |
Вес доказательства (Weight of evidence) Коэффициент WoE, Coefficient WoE |
В задачах бинарной классификации используется для формирования конечных классов. Коэффициенты WoE и вычисленные на их основе значения IV являются критерием для формирования конечных классов оптимальным образом. |
Дисперсия (Variance) |
В статистике — величина, которая характеризует меру разброса значений случайной величины относительно ее математического ожидания. Является одним из параметров нормального закона распределения. |
Доверительный интервал (Confidence interval) |
В математической статистике — интервал, в пределах которого с заданной вероятностью лежат выборочные оценки статистических характеристик генеральной совокупности. |
Достоверность (Reliability) |
Несомненная верность чего-либо. В анализе данных говорят о достоверности информации, необходимой для принятия решений. Она должна обладать свойствами полноты, актуальности, точности, непротиворечивости и т.д. |
Индекс Джини (Gini index) |
Статистический показатель, с помощью которого можно описывать характер изменения одной величины относительно изменения другой. Основное применение — оценка неравномерности распределения изучаемого признака. |
Индекс стабильности популяции (Population stability Index) PSI |
Распространённая метрика для мониторинга актуальности текущего состояния аналитических моделей. Значение метрики показывает насколько сильно изменились свойства данных (популяции) с момента построения подели и позволяет сделать вывод о целесообразности дальнейшего использования модели или необходимости её уточнения. |
Информационная энтропия (Information entropy) Энтропия Шеннона |
В теории информации энтропия — это средняя скорость генерирования значений некоторым случайным источником данных. В анализе данных используется в алгоритмах классификации как мера классовой однородности подмножеств наблюдений. |
Информационный индекс (Information value) Коэффициент IV, Coefficient IV |
Величина, определяющая значимость переменной в модели бинарной классификации. Вычисляется на основе коэффициентов WoE. Является критерием для формирования конечных классов оптимальным образом. |
Информационный критерий Акаике (Akaike's information criterion) AIC |
Критерий для выбора лучшей из статистических моделей, построенных на одном и том же наборе данных и использующих логарифмическую функцию правдоподобия. Позволяет найти компромисс между сложностью модели и ее точностью. |
Информационный критерий Акаике скорректированный (Akaike's information criterion corrected) AICc |
Модифицированный критерий Акаике, который применяется для выборок малого размера, когда отношение числа содержащихся в выборке примеров к числу параметров модели меньше 40. Т.е. вводится поправка на ограниченный объем выборки. |
Информационный критерий Байеса (Bayesian information criterion) BIC, Критерий Шварца, SC, Schwarz Criterion |
Критерий выбора статистической модели. Задача состоит в том, чтобы включить в модель минимум параметров, которые, тем не менее, вносили бы наибольший вклад в значение функции правдоподобия. Синонимы — BIC, Критерий Шварца. |
Информационный критерий Ханнана-Куина (Hannan-Quinn criterion) HQ |
В статистике и анализе данных — критерий для сравнения моделей с разным числом параметров, когда требуется выбрать лучший набор независимых переменных. Лучшая модель имеет наименьшее значение критерия. |
Ключевые показатели эффективности (Key Performance Indicators) KPI, КПЭ |
Система числовых показателей для оценивания эффективности деятельности компании в целом, или отдельных её подразделений, работников и направлений деятельности. Позволяют оценить текущее состояние предприятия, определить, насколько далеко оно от оптимального, а также выявить возможности по улучшению. |
Коэффициент вариации (Variation coefficient) |
В статистике — отношение стандартного (среднеквадратичного) отклонения случайной величины к ее математическому ожиданию. Одно из важных применений коэффициента вариации — оценка инвестиционных рисков. |
Коэффициент детерминации (Coefficient of determination) Коэффициент смешанной корреляции, Коэффициент R-квадрат |
Отражает объясняющую способность регрессии. Равен отношению суммы квадратов регрессии к общей вариации. Является статистической мерой согласия. Позволяет определить, насколько уравнение регрессии соответствует реальным данным. |
Коэффициент детерминации МакФаддена (Coefficient of determination McFadden's) Коэффициент R-квадрат |
Коэффициент детерминации МакФаддена и скорректированный коэффициент детерминации МакФаддена применяются для оценки степени соответствия модели регрессии реальным данным (логит, пробит, гомпит регрессий). |
Коэффициент конверсии (Conversion rate) |
В конверсионном маркетинге — отношение числа посетителей интеренет-ресурса, проявивших на нём целевую активность, к общему числу посетителей. Характеризует эффективность ресурса, рекламирующего товары или услуги компании. |
Коэффициент корреляции (Correlation coefficient) |
В математической статистике — показатель, характеризующий силу статистической связи между двумя или несколькими случайными величинами. Широко применяется в анализе данных для отбора переменных в аналитические модели. |
Коэффициент удержания клиентов (Customer Retention rate) Retention Rate, CRR |
Показатель, отражающий способность компании поддерживать долгосрочные отношения с клиентами, а также осуществлять мониторинг эффективности её стратегии по удержанию клиентов. |
Коэффициент эластичности (Elasticity coefficient) |
Характеризует относительное изменение одного признака при относительном изменении другого. В экономике и бизнесе используется для анализа соотношения спроса и цены. |
Критерий Дарбина-Уотсона (Durbin-Watson statistic) |
Применяется для обнаружения автокорреляции во временных рядах. Также с помощью критерия Дарбина-Уотсона выявляют наличие коинтеграции (продолжительной линейной зависимости) между двумя временными рядами. |
Критерий Колмогорова-Смирнова (Kolmogorov–Smirnov test) K–S test, KS test |
Статистический критерий для определения соответствия эмпирического и теоретического вероятностных распределений, а также сравнения распределений двух выборок. |
Критерий прироста информации (Information Gain) |
В анализе данных и машинном обучении — критерий, используемый для выбора лучшего разбиения подмножеств в узлах деревьев решений в алгоритмах обучения ID3 и С4.5. |
Критерий согласия (Fitting criterion) |
Статистическое правило, по которому принимается или отвергается гипотеза о том, что исследуемая случайная величина подчиняется заданному эмпирическому закону распределения. Имеет важное значение при применении статистических методов анализа. |
Критерий Фишера (F-test) F-критерий |
Статистический критерий для оценки значимости различия дисперсий двух случайных выборок. В Data Mining применяется для оценки значимости регрессионных моделей. |
Лифт ассоциативного правила (Lift of Association Rule) |
В анализе данных — субъективная мера значимости ассоциативного правила. Правило, имеющее значение лифта больше 1, может считаться значимым. Значение меньше 1 указывает на наличие «антиправила». |
Лифт-кривая (Lift-Curve) |
Визуальное средство для оценивания предсказательной способности и сравнения моделей бинарной классификации, а также оптимизации издержек классификации. |
Математическое ожидание (Expectation value) Ожидаемое значение, Expected value |
Среднее значение случайной величины, полученное при бесконечном числе испытаний или по выборке бесконечного размера. Одно из важнейших понятий теории вероятности, поскольку может служить усредненной оценкой случайной величины. |
Матрица миграции (Migration matrix) Матрица переходов Маркова, Матрица вероятностей переходов, Стохастическая матрица, Probability matrix, Transition matrix, Markov matrix, Stochastic matrix |
Инструмент для оценивания кредитных рисков на основе вероятностей перехода (миграции) кредита из одной категории качества в другую. Матрица миграции состоит из вероятностей таких переходов. |
Медиана (Median) Медиана статистическая |
В математической статистике — значение, делящее распределение на две равновероятные части. В анализе данных используется как альтернатива среднему значению, устойчивая к выбросам и аномальным значениям. |
Мера (Measure) Показатель, Факт, Fact |
Качественная или количественная характеристика состояния некоторого объекта или процесса. В анализе данных и многомерном моделировании является синонимом факта. |
Метрика (Metric) Метрическое пространство |
В анализе данных — функция для определения расстояния между многомерными векторами в пространстве признаков. Понятие метрики важно для понимания работы моделей анализа данных, использующих операции с многомерными векторами. |
Метрика TF-IDF (Term frequency–inverse document frequency) |
TF-IDF — статистический показатель, применяемый для оценки важности слова для категории, документа или коллекции. Используется при анализе текстовых данных и рассчитывается для каждого слова. |
Мода распределения (Mode) |
В статистике — значение, которое случайная величина на заданном множестве наблюдений принимает наиболее часто. С точки зрения анализа данных, мода несёт информацию о типичных значениях признака. |
Нормальное распределение (Normal Distribution) Распределение Гаусса, Gauss Distribution |
В математической статистике и теории вероятностей — распределение вероятностей, которое задаётся функцией Гаусса. Типичная ситуация в анализе данных и служит хорошей моделью для многих реальных процессов. |
Отношение правдоподобия (Likelihood ratio) |
В теории вероятности — отношение вероятности получить положительный результат для положительного исхода к вероятности получить положительный результат для отрицательного исхода. |
Отношение шансов (Odds ratio) OR |
Статистика, которая количественно определяет силу связи между двумя событиями из одной статистической совокупности. Определяется как отношение вероятности события A в присутствии B к вероятности события A в отсутствие B. |
Ошибка обобщения (Generalization error) |
Ошибка, которую модель, основанная на машинном обучении, показывает на примерах, не участвовавших в процессе обучения. Служит для оценивания «подгонки» модели к обучающему множеству и для выявления эффекта переобучения. |
Ошибка обучения (Training Error) Ошибка на обучающем множестве |
В машинном обучении — разность между желаемым (целевым) и фактическим выходом модели на примерах обучающего множества. Особенно большую роль играет при обучении нейронной сети, т.к. используется для расчета коррекции весов нейронов. |
Ошибки I и II рода (Type I errors, type II errors) |
Ключевые понятия в математической статистике. Ошибка I рода заключается в отклонении нулевой гипотезы в случае, когда она является истинной. Ошибка II рода состоит в принятии нулевой гипотезы, когда она является ложной. |
Площадь под ROC-кривой (Area Under The ROC Curve) AUC, Область под ROC-кривой |
Часть координатной плоскости под графиком ROC-кривой. В математической статистике и машинном обучении является мерой качества модели бинарной классификации. В идеальной модели площадь под ROC-кривой максимальна и равна 1. |
Поддержка ассоциативного правила (Association Rule Support) |
Показатель, характеризующий качество ассоциативного правила. Является мерой надежности, с которой ассоциативное правило выражает связь между условием и следствием. |
Распределение Стьюдента (Student's distribution) t-распределение |
В математической статистике — семейство непрерывных одномерных распределений с одним параметром — числом степеней свободы. В анализе данных используется для проверки гипотез о значимости моделей регрессии. |
Распределение Фишера (Fisher's distribution) F-распределение, Распределение Снедекора |
В теории вероятностей — двухпараметрическое семейство абсолютно непрерывных распределений. Применяется для проверки статистических гипотез, в частности, при оценке значимости регрессионных моделей. |
Расстояние Евклида (Euclid distance) Евклидово расстояние, Евклидова метрика |
Геометрическое расстояние в многомерном пространстве. Широко используется в анализе данных как критерий для объединения наблюдений в классы и кластеры, оценки ошибок в предсказательной аналитике, в визуализации данных. |
Расстояние Левенштейна (Levenshtein’s distance) Редакционное расстояние, Дистанция редактирования |
Определяет, сколько раз необходимо добавить/удалить/заменить символ, чтобы одну строку превратить в другую. Может служить фильтром, отбрасывающим неприемлемые варианты, у которых значение функции больше заданной константы. |
Среднеквадратическое отклонение (Mean square deviation) Среднее квадратическое отклонение, Среднеквадратичное отклонение, Квадратичное отклонение, Стандартное отклонение, Standard deviation |
Статистическая характеристика распределения случайной величины, показывающая среднюю степень разброса ее значений относительно математического ожидания. В анализе данных используется как мера изменчивости значений признаков. |
Стандартная ошибка оценивания (Standard estimation error) |
Величина, равная квадратному корню среднеквадратической ошибки регрессии. Позволяет увидеть степень отклонения полученных значений с фактическими и таким образом оценить точность модели. |
Статистическая значимость (Statistical significance) |
Оцененная мера уверенности в том, что полученный результат не является случайным. Результатом могут быть различие распределения двух выборок, степень отличия некоторого статистического распределения от нормального и т.д. |
Тест Вальда (Wald test) |
Статистический тест с широким диапазоном применения. Наиболее часто используется для проверки гипотез, связанных с оценками параметров вероятностных моделей, получаемых на основе выборочных данных. |
Тест Чоу (Chow test) |
Позволяет оценить значимость улучшения регрессионной модели после разделения исходной выборки на части. Имеет большое практическое значение в анализе данных для повышения точности моделей. |
Точность (Precision) |
Степень соответствия результатов, полученных в процессе исследований, измерений, экспериментов, истинным значениям. В анализе данных обычно ищут компромисс между точностью аналитической модели и затратами на ее реализацию. |
Уровень значимости (Significance level) Уровень достоверности |
В математической статистике — величина для оценки истинности некоторого результата или гипотезы. Например, при проверке статистической гипотезы — это вероятность отклонить нулевую гипотезу, если на самом деле она истинна. |
Фактор сна (Churn factor) Фактор оттока |
Индивидуальный показатель ухода клиента, определяемый на основе частоты его действий. Чем выше данный показатель, тем больше вероятность, что клиент ушёл безвозвратно. |
Хи-квадрат критерий (Chi-square test) Критерий согласия Пирсона |
Критерий согласия для проверки гипотезы о законе распределения исследуемой случайной величины. Служит для подтверждения или опровержения гипотезы о том, что эмпирически полученное распределение соответствует некоторому теоретическому закону. |
Частный F-тест (Partial F-test) |
Статистический метод, в котором производится сравнение среднего квадрата регрессии со средним квадратом ошибки регрессии. Используется для отбора входных переменных в моделях множественной линейной регрессии. |
Чувствительность (Sensitivity) True positive rate, Recall, TPR |
Показатель, отражающий точность модели бинарной классификации. Определяется как отношение числа истинно-положительных классификаций к общему числу положительных классификаций. |
Шанс (Odds) |
количественая характеристика генеральной совокупности, равная отношению вероятности того, что событие произойдет к вероятности того, что событие не произойдет. |