Метрики

Название/Синоним Описание
Автокорреляционная функция (Autocorrelation function) АКФ, ACF Автокорреляционная функция показывает степень линейной статистической связи между значениями временного ряда. Представляет собой последовательность коэффициентов корреляции между исходным рядом, и его копией, сдвинутой на заданное число интервалов ряда. Позволяет обнаруживать во временных рядах тенденции и циклические компоненты,
Вес доказательства (Weight of evidence) Коэффициент WoE, Coefficient WoE В задачах бинарной классификации используется для формирования конечных классов. Коэффициенты WoE и вычисленные на их основе значения IV являются критерием для формирования конечных классов оптимальным образом.
Дисперсия (Variance) В статистике — величина, которая характеризует меру разброса значений случайной величины относительно ее математического ожидания. Является одним из параметров нормального закона распределения.
Доверительный интервал (Confidence interval) В математической статистике — интервал, в пределах которого с заданной вероятностью лежат выборочные оценки статистических характеристик генеральной совокупности.
Достоверность (Reliability) Несомненная верность чего-либо. В анализе данных говорят о достоверности информации, необходимой для принятия решений. Она должна обладать свойствами полноты, актуальности, точности, непротиворечивости и т.д.
Индекс Джини (Gini index) Статистический показатель, с помощью которого можно описывать характер изменения одной величины относительно изменения другой. Основное применение — оценка неравномерности распределения изучаемого признака.
Индекс стабильности популяции (Population stability Index) PSI Распространённая метрика для мониторинга актуальности текущего состояния аналитических моделей. Значение метрики показывает насколько сильно изменились свойства данных (популяции) с момента построения подели и позволяет сделать вывод о целесообразности дальнейшего использования модели или необходимости её уточнения.
Информационная энтропия (Information entropy) Энтропия Шеннона В теории информации энтропия — это средняя скорость генерирования значений некоторым случайным источником данных. В анализе данных используется в алгоритмах классификации как мера классовой однородности подмножеств наблюдений.
Информационный индекс (Information value) Коэффициент IV, Coefficient IV Величина, определяющая значимость переменной в модели бинарной классификации. Вычисляется на основе коэффициентов WoE. Является критерием для формирования конечных классов оптимальным образом.
Информационный критерий Акаике (Akaike's information criterion) AIC Критерий для выбора лучшей из статистических моделей, построенных на одном и том же наборе данных и использующих логарифмическую функцию правдоподобия. Позволяет найти компромисс между сложностью модели и ее точностью.
Информационный критерий Акаике скорректированный (Akaike's information criterion corrected) AICc Модифицированный критерий Акаике, который применяется для выборок малого размера, когда отношение числа содержащихся в выборке примеров к числу параметров модели меньше 40. Т.е. вводится поправка на ограниченный объем выборки.
Информационный критерий Байеса (Bayesian information criterion) BIC, Критерий Шварца, SC, Schwarz Criterion Критерий выбора статистической модели. Задача состоит в том, чтобы включить в модель минимум параметров, которые, тем не менее, вносили бы наибольший вклад в значение функции правдоподобия. Синонимы — BIC, Критерий Шварца.
Информационный критерий Ханнана-Куина (Hannan-Quinn criterion) HQ В статистике и анализе данных — критерий для сравнения моделей с разным числом параметров, когда требуется выбрать лучший набор независимых переменных. Лучшая модель имеет наименьшее значение критерия.
Ключевые показатели эффективности (Key Performance Indicators) KPI, КПЭ Система числовых показателей для оценивания эффективности деятельности компании в целом, или отдельных её подразделений, работников и направлений деятельности. Позволяют оценить текущее состояние предприятия, определить, насколько далеко оно от оптимального, а также выявить возможности по улучшению.
Коэффициент вариации (Variation coefficient) В статистике — отношение стандартного (среднеквадратичного) отклонения случайной величины к ее математическому ожиданию. Одно из важных применений коэффициента вариации — оценка инвестиционных рисков.
Коэффициент детерминации (Coefficient of determination) Коэффициент смешанной корреляции, Коэффициент R-квадрат Отражает объясняющую способность регрессии. Равен отношению суммы квадратов регрессии к общей вариации. Является статистической мерой согласия. Позволяет определить, насколько уравнение регрессии соответствует реальным данным.
Коэффициент детерминации МакФаддена (Coefficient of determination McFadden's) Коэффициент R-квадрат Коэффициент детерминации МакФаддена и скорректированный коэффициент детерминации МакФаддена применяются для оценки степени соответствия модели регрессии реальным данным (логит, пробит, гомпит регрессий).
Коэффициент конверсии (Conversion rate) В конверсионном маркетинге — отношение числа посетителей интеренет-ресурса, проявивших на нём целевую активность, к общему числу посетителей. Характеризует эффективность ресурса, рекламирующего товары или услуги компании.
Коэффициент корреляции (Correlation coefficient) В математической статистике — показатель, характеризующий силу статистической связи между двумя или несколькими случайными величинами. Широко применяется в анализе данных для отбора переменных в аналитические модели.
Коэффициент удержания клиентов (Customer Retention rate) Retention Rate, CRR Показатель, отражающий способность компании поддерживать долгосрочные отношения с клиентами, а также осуществлять мониторинг эффективности её стратегии по удержанию клиентов.
Коэффициент эластичности (Elasticity coefficient) Характеризует относительное изменение одного признака при относительном изменении другого. В экономике и бизнесе используется для анализа соотношения спроса и цены.
Критерий Дарбина-Уотсона (Durbin-Watson statistic) Применяется для обнаружения автокорреляции во временных рядах. Также с помощью критерия Дарбина-Уотсона выявляют наличие коинтеграции (продолжительной линейной зависимости) между двумя временными рядами.
Критерий Колмогорова-Смирнова (Kolmogorov–Smirnov test) K–S test, KS test Статистический критерий для определения соответствия эмпирического и теоретического вероятностных распределений, а также сравнения распределений двух выборок.
Критерий прироста информации (Information Gain) В анализе данных и машинном обучении — критерий, используемый для выбора лучшего разбиения подмножеств в узлах деревьев решений в алгоритмах обучения ID3 и С4.5.
Критерий согласия (Fitting criterion) Статистическое правило, по которому принимается или отвергается гипотеза о том, что исследуемая случайная величина подчиняется заданному эмпирическому закону распределения. Имеет важное значение при применении статистических методов анализа.
Критерий Фишера (F-test) F-критерий Статистический критерий для оценки значимости различия дисперсий двух случайных выборок. В Data Mining применяется для оценки значимости регрессионных моделей.
Лифт ассоциативного правила (Lift of Association Rule) В анализе данных — субъективная мера значимости ассоциативного правила. Правило, имеющее значение лифта больше 1, может считаться значимым. Значение меньше 1 указывает на наличие «антиправила».
Лифт-кривая (Lift-Curve) Визуальное средство для оценивания предсказательной способности и сравнения моделей бинарной классификации, а также оптимизации издержек классификации.
Математическое ожидание (Expectation value) Ожидаемое значение, Expected value Среднее значение случайной величины, полученное при бесконечном числе испытаний или по выборке бесконечного размера. Одно из важнейших понятий теории вероятности, поскольку может служить усредненной оценкой случайной величины.
Матрица миграции (Migration matrix) Матрица переходов Маркова, Матрица вероятностей переходов, Стохастическая матрица, Probability matrix, Transition matrix, Markov matrix, Stochastic matrix Инструмент для оценивания кредитных рисков на основе вероятностей перехода (миграции) кредита из одной категории качества в другую. Матрица миграции состоит из вероятностей таких переходов.
Медиана (Median) Медиана статистическая В математической статистике — значение, делящее распределение на две равновероятные части. В анализе данных используется как альтернатива среднему значению, устойчивая к выбросам и аномальным значениям.
Мера (Measure) Показатель, Факт, Fact Качественная или количественная характеристика состояния некоторого объекта или процесса. В анализе данных и многомерном моделировании является синонимом факта.
Метрика (Metric) Метрическое пространство В анализе данных — функция для определения расстояния между многомерными векторами в пространстве признаков. Понятие метрики важно для понимания работы моделей анализа данных, использующих операции с многомерными векторами.
Метрика TF-IDF (Term frequency–inverse document frequency) TF-IDF — статистический показатель, применяемый для оценки важности слова для категории, документа или коллекции. Используется при анализе текстовых данных и рассчитывается для каждого слова.
Мода распределения (Mode) В статистике — значение, которое случайная величина на заданном множестве наблюдений принимает наиболее часто. С точки зрения анализа данных, мода несёт информацию о типичных значениях признака.
Нормальное распределение (Normal Distribution) Распределение Гаусса, Gauss Distribution В математической статистике и теории вероятностей — распределение вероятностей, которое задаётся функцией Гаусса. Типичная ситуация в анализе данных и служит хорошей моделью для многих реальных процессов.
Отношение правдоподобия (Likelihood ratio) В теории вероятности — отношение вероятности получить положительный результат для положительного исхода к вероятности получить положительный результат для отрицательного исхода.
Отношение шансов (Odds ratio) OR Статистика, которая количественно определяет силу связи между двумя событиями из одной статистической совокупности. Определяется как отношение вероятности события A в присутствии B к вероятности события A в отсутствие B.
Ошибка обобщения (Generalization error) Ошибка, которую модель, основанная на машинном обучении, показывает на примерах, не участвовавших в процессе обучения. Служит для оценивания «подгонки» модели к обучающему множеству и для выявления эффекта переобучения.
Ошибка обучения (Training Error) Ошибка на обучающем множестве В машинном обучении — разность между желаемым (целевым) и фактическим выходом модели на примерах обучающего множества. Особенно большую роль играет при обучении нейронной сети, т.к. используется для расчета коррекции весов нейронов.
Ошибки I и II рода (Type I errors, type II errors) Ключевые понятия в математической статистике. Ошибка I рода заключается в отклонении нулевой гипотезы в случае, когда она является истинной. Ошибка II рода состоит в принятии нулевой гипотезы, когда она является ложной.
Площадь под ROC-кривой (Area Under The ROC Curve) AUC, Область под ROC-кривой Часть координатной плоскости под графиком ROC-кривой. В математической статистике и машинном обучении является мерой качества модели бинарной классификации. В идеальной модели площадь под ROC-кривой максимальна и равна 1.
Поддержка ассоциативного правила (Association Rule Support) Показатель, характеризующий качество ассоциативного правила. Является мерой надежности, с которой ассоциативное правило выражает связь между условием и следствием.
Распределение Стьюдента (Student's distribution) t-распределение В математической статистике — семейство непрерывных одномерных распределений с одним параметром — числом степеней свободы. В анализе данных используется для проверки гипотез о значимости моделей регрессии.
Распределение Фишера (Fisher's distribution) F-распределение, Распределение Снедекора В теории вероятностей — двухпараметрическое семейство абсолютно непрерывных распределений. Применяется для проверки статистических гипотез, в частности, при оценке значимости регрессионных моделей.
Расстояние Евклида (Euclid distance) Евклидово расстояние, Евклидова метрика Геометрическое расстояние в многомерном пространстве. Широко используется в анализе данных как критерий для объединения наблюдений в классы и кластеры, оценки ошибок в предсказательной аналитике, в визуализации данных.
Расстояние Левенштейна (Levenshtein’s distance) Редакционное расстояние, Дистанция редактирования Определяет, сколько раз необходимо добавить/удалить/заменить символ, чтобы одну строку превратить в другую. Может служить фильтром, отбрасывающим неприемлемые варианты, у которых значение функции больше заданной константы.
Среднеквадратическое отклонение (Mean square deviation) Среднее квадратическое отклонение, Среднеквадратичное отклонение, Квадратичное отклонение, Стандартное отклонение, Standard deviation Статистическая характеристика распределения случайной величины, показывающая среднюю степень разброса ее значений относительно математического ожидания. В анализе данных используется как мера изменчивости значений признаков.
Стандартная ошибка оценивания (Standard estimation error) Величина, равная квадратному корню среднеквадратической ошибки регрессии. Позволяет увидеть степень отклонения полученных значений с фактическими и таким образом оценить точность модели.
Статистическая значимость (Statistical significance) Оцененная мера уверенности в том, что полученный результат не является случайным. Результатом могут быть различие распределения двух выборок, степень отличия некоторого статистического распределения от нормального и т.д.
Тест Вальда (Wald test) Статистический тест с широким диапазоном применения. Наиболее часто используется для проверки гипотез, связанных с оценками параметров вероятностных моделей, получаемых на основе выборочных данных.
Тест Чоу (Chow test) Позволяет оценить значимость улучшения регрессионной модели после разделения исходной выборки на части. Имеет большое практическое значение в анализе данных для повышения точности моделей.
Точность (Precision) Степень соответствия результатов, полученных в процессе исследований, измерений, экспериментов, истинным значениям. В анализе данных обычно ищут компромисс между точностью аналитической модели и затратами на ее реализацию.
Уровень значимости (Significance level) Уровень достоверности В математической статистике — величина для оценки истинности некоторого результата или гипотезы. Например, при проверке статистической гипотезы — это вероятность отклонить нулевую гипотезу, если на самом деле она истинна.
Фактор сна (Churn factor) Фактор оттока Индивидуальный показатель ухода клиента, определяемый на основе частоты его действий. Чем выше данный показатель, тем больше вероятность, что клиент ушёл безвозвратно.
Хи-квадрат критерий (Chi-square test) Критерий согласия Пирсона Критерий согласия для проверки гипотезы о законе распределения исследуемой случайной величины. Служит для подтверждения или опровержения гипотезы о том, что эмпирически полученное распределение соответствует некоторому теоретическому закону.
Частный F-тест (Partial F-test) Статистический метод, в котором производится сравнение среднего квадрата регрессии со средним квадратом ошибки регрессии. Используется для отбора входных переменных в моделях множественной линейной регрессии.
Чувствительность (Sensitivity) True positive rate, Recall, TPR Показатель, отражающий точность модели бинарной классификации. Определяется как отношение числа истинно-положительных классификаций к общему числу положительных классификаций.
Шанс (Odds) количественая характеристика генеральной совокупности, равная отношению вероятности того, что событие произойдет к вероятности того, что событие не произойдет.