Метрики

Название/Синоним Описание
Автокорреляционная функция (Autocorrelation function) АКФ, ACF Автокорреляционная функция показывает степень линейной статистической связи между значениями временного ряда. Представляет собой последовательность коэффициентов корреляции между исходным рядом, и его копией, сдвинутой на заданное число интервалов ряда. Позволяет обнаруживать во временных рядах тенденции и циклические компоненты,
Байесовский информационный критерий (Bayesian information criterion) BIC, Критерий Шварца, SC, Schwarz Criterion Критерий выбора статистической модели. Задача состоит в том, чтобы включить в модель минимум параметров, которые, тем не менее, вносили бы наибольший вклад в значение функции правдоподобия. Синонимы — BIC, Критерий Шварца.
Вес доказательства (Weight of evidence) Коэффициент WoE, Coefficient WoE В задачах бинарной классификации используется для формирования конечных классов. Коэффициенты WoE и вычисленные на их основе значения IV являются критерием для формирования конечных классов оптимальным образом.
Дисперсия (Variance) В статистике — величина, которая характеризует меру разброса значений случайной величины относительно ее математического ожидания. Является одним из параметров нормального закона распределения.
Доверительный интервал (Confidence interval) В математической статистике — интервал, в пределах которого с заданной вероятностью лежат выборочные оценки статистических характеристик генеральной совокупности.
Достоверность (Reliability) Несомненная верность чего-либо. В анализе данных говорят о достоверности информации, необходимой для принятия решений. Она должна обладать свойствами полноты, актуальности, точности, непротиворечивости и т.д.
Индекс Джини (Gini index) Статистический показатель, с помощью которого можно описывать характер изменения одной величины относительно изменения другой. Основное применение — оценка неравномерности распределения изучаемого признака.
Индекс стабильности популяции (Population stability Index) PSI Распространенная метрика для мониторинга актуальности текущего состояния аналитических моделей. Значение метрики показывает насколько сильно изменились свойства данных (популяции) с момента построения подели и позволяет сделать вывод о целесообразности дальнейшего использования модели или необходимости ее уточнения.
Интерквартильный размах (Interquartile range) IQR, Midspread, Middle 50%, Fourth spread, H‑spread В описательной статистике мера разброса значений данных относительно медианы. Равен разности между 1-м и 3-м квартилями распредления.
Информационная энтропия (Information entropy) Энтропия Шеннона В теории информации энтропия — это средняя скорость генерирования значений некоторым случайным источником данных. В анализе данных используется в алгоритмах классификации как мера классовой однородности подмножеств наблюдений.
Информационный индекс (Information value) Коэффициент IV, Coefficient IV Величина, определяющая значимость переменной в модели бинарной классификации. Вычисляется на основе коэффициентов WoE. Является критерием для формирования конечных классов оптимальным образом.
Информационный критерий Акаике (Akaike's information criterion) AIC Критерий для выбора лучшей из статистических моделей, построенных на одном и том же наборе данных и использующих логарифмическую функцию правдоподобия. Позволяет найти компромисс между сложностью модели и ее точностью.
Информационный критерий Акаике скорректированный (Akaike's information criterion corrected) AICc Модифицированный критерий Акаике, который применяется для выборок малого размера, когда отношение числа содержащихся в выборке примеров к числу параметров модели меньше 40. Т.е. вводится поправка на ограниченный объем выборки.
Информационный критерий Ханнана-Куина (Hannan-Quinn criterion) HQ В статистике и анализе данных — критерий для сравнения моделей с разным числом параметров, когда требуется выбрать лучший набор независимых переменных. Лучшая модель имеет наименьшее значение критерия.
Ключевые показатели эффективности (Key Performance Indicators) KPI, КПЭ Система числовых показателей для оценивания эффективности деятельности компании в целом, или отдельных ее подразделений, работников и направлений деятельности. Позволяют оценить текущее состояние предприятия, определить, насколько далеко оно от оптимального, а также выявить возможности по улучшению.
Коэффициент вариации (Variation coefficient) В статистике — отношение стандартного (среднеквадратичного) отклонения случайной величины к ее математическому ожиданию. Одно из важных применений коэффициента вариации — оценка инвестиционных рисков.
Коэффициент детерминации (Coefficient of determination) Коэффициент смешанной корреляции, Коэффициент R-квадрат Отражает объясняющую способность регрессии. Равен отношению суммы квадратов регрессии к общей вариации. Является статистической мерой согласия. Позволяет определить, насколько уравнение регрессии соответствует реальным данным.
Коэффициент детерминации МакФаддена (Coefficient of determination McFadden's) Коэффициент R-квадрат Коэффициент детерминации МакФаддена и скорректированный коэффициент детерминации МакФаддена применяются для оценки степени соответствия модели регрессии реальным данным (логит, пробит, гомпит регрессий).
Коэффициент конверсии (Conversion rate) В конверсионном маркетинге — отношение числа посетителей интеренет-ресурса, проявивших на нем целевую активность, к общему числу посетителей. Характеризует эффективность ресурса, рекламирующего товары или услуги компании.
Коэффициент корреляции (Correlation coefficient) В математической статистике — показатель, характеризующий силу статистической связи между двумя или несколькими случайными величинами. Широко применяется в анализе данных для отбора переменных в аналитические модели.
Коэффициент ранговой корреляции Кендалла (Kendall rank correlation coefficient) Kendall rank-order correlation coefficient, Kendall's coefficient, Тау-корреляция В математической статистике — метод корреляционного анализа, описывающий зависимость между переменными, представленными в порядковой (ранговой) шкале.
Коэффициент ранговой корреляции Спирмена (Spearman's rank correlation coefficient) Spearman's rank-order correlation coefficient, ро-коэффициент Статистический показатель, описывающий зависимость между признаками, представленными в порядковой (ранговой) шкале. Аналогичен коэффициенту корреляции Пирсона, но использует при расчетах не значения признаков, а их ранги.
Коэффициент силуэта кластера (Cluster silhouette index) Индекс силуэта, Коэффициент силуэта, Silhouette index, Silhouette coefficient Показатель, позволяющий оценить степень соответствия построенной кластерной структуры обучающим данным на основе анализа внутрикластерных и междукластерных расстояний.
Коэффициент удержания клиентов (Customer Retention rate) Retention Rate, CRR Показатель, отражающий способность компании поддерживать долгосрочные отношения с клиентами, а также осуществлять мониторинг эффективности ее стратегии по удержанию клиентов.
Коэффициент эластичности (Elasticity coefficient) Характеризует относительное изменение одного признака при относительном изменении другого. В экономике и бизнесе используется для анализа соотношения спроса и цены.
Критерий Дарбина-Уотсона (Durbin-Watson statistic) Применяется для обнаружения автокорреляции во временных рядах. Также с помощью критерия Дарбина-Уотсона выявляют наличие коинтеграции (продолжительной линейной зависимости) между двумя временными рядами.
Критерий Колмогорова-Смирнова (Kolmogorov–Smirnov test) K–S test, KS test Статистический критерий для определения соответствия эмпирического и теоретического вероятностных распределений, а также сравнения распределений двух выборок.
Критерий прироста информации (Information Gain) В анализе данных и машинном обучении — критерий, используемый для выбора лучшего разбиения подмножеств в узлах деревьев решений в алгоритмах обучения ID3 и С4.5.
Критерий согласия (Fitting criterion) Статистическое правило, по которому принимается или отвергается гипотеза о том, что исследуемая случайная величина подчиняется заданному эмпирическому закону распределения. Имеет важное значение при применении статистических методов анализа.
Критерий Фишера (F-test) F-критерий Статистический критерий для оценки значимости различия дисперсий двух случайных выборок. В Data Mining применяется для оценки значимости регрессионных моделей.
Лифт ассоциативного правила (Lift of Association Rule) В анализе данных — субъективная мера значимости ассоциативного правила. Правило, имеющее значение лифта больше 1, может считаться значимым. Значение меньше 1 указывает на наличие «антиправила».
Лифт-кривая (Lift-Curve) Визуальное средство для оценивания предсказательной способности и сравнения моделей бинарной классификации, а также оптимизации издержек классификации.
Математическое ожидание (Expectation value) Ожидаемое значение, Expected value Среднее значение случайной величины, полученное при бесконечном числе испытаний или по выборке бесконечного размера. Одно из важнейших понятий теории вероятности, поскольку может служить усредненной оценкой случайной величины.
Матрица миграции (Migration matrix) Матрица переходов Маркова, Матрица вероятностей переходов, Стохастическая матрица, Probability matrix, Transition matrix, Markov matrix, Stochastic matrix Инструмент для оценивания кредитных рисков на основе вероятностей перехода (миграции) кредита из одной категории качества в другую. Матрица миграции состоит из вероятностей таких переходов.
Матрица ошибок (Error matrix) Матрица неточностей, Confusion matrix Способ визуализации результатов работы классификатора для оценки его качества.
Медиана (Median) Медиана статистическая, Непараметрическая средняя В статистике и теории вероятности — величина, такая что половина значений выборки больше нее, а другая половина — меньше. Иными словами, медиана представляет собой срединное значение упорядоченного по возрастанию (или убыванию) числового ряда. Используется как альтернатива среднему, устойчивая к выбросам и аномалиям в данных.
Мера (Measure) Показатель, Факт, Fact Качественная или количественная характеристика состояния некоторого объекта или процесса. В анализе данных и многомерном моделировании является синонимом факта.
Метрика (Metric) Метрическое пространство В анализе данных — функция для определения расстояния между многомерными векторами в пространстве признаков. Понятие метрики важно для понимания работы моделей анализа данных, использующих операции с многомерными векторами.
Метрика TF-IDF (Term frequency–inverse document frequency) TF-IDF — статистический показатель, применяемый для оценки важности слова для категории, документа или коллекции. Используется при анализе текстовых данных и рассчитывается для каждого слова.
Мода распределения (Mode) В статистике — значение, которое случайная величина на заданном множестве наблюдений принимает наиболее часто. С точки зрения анализа данных, мода несет информацию о типичных значениях признака.
Нормальное распределение (Normal Distribution) Распределение Гаусса, Gauss Distribution В математической статистике и теории вероятностей — распределение вероятностей, которое задается функцией Гаусса. Типичная ситуация в анализе данных и служит хорошей моделью для многих реальных процессов.
Нормы запасов (Inventory rates) Минимальное количество предметов труда, находящееся у предприятия и необходимое для бесперебойного снабжения производства или торговли.
Оборачиваемость запасов (Stock turnover) Оборачиваемость, Коэффициент оборачиваемости запасов, Stock, Inventory turnover ratio Показатель, указывающий сколько раз за анализируемый период компания использовала средний имеющийся остаток запасов.
Оборачиваемость товаров (Turnover of goods) Количество оборотов товаров за заданный отрезок времени.
Отношение правдоподобия (Likelihood ratio) В теории вероятности — отношение вероятности получить положительный результат для положительного исхода к вероятности получить положительный результат для отрицательного исхода.
Отношение шансов (Odds ratio) OR Статистика, которая количественно определяет силу связи между двумя событиями из одной статистической совокупности. Определяется как отношение вероятности события A в присутствии B к вероятности события A в отсутствие B.
Ошибка обобщения (Generalization error) Ошибка, которую модель, основанная на машинном обучении, показывает на примерах, не участвовавших в процессе обучения. Служит для оценивания «подгонки» модели к обучающему множеству и для выявления эффекта переобучения.
Ошибка обучения (Training Error) Ошибка на обучающем множестве В машинном обучении — разность между желаемым (целевым) и фактическим выходом модели на примерах обучающего множества. Особенно большую роль играет при обучении нейронной сети, т.к. используется для расчета коррекции весов нейронов.
Ошибки I и II рода (Type I errors, type II errors) Ключевые понятия в математической статистике. Ошибка I рода заключается в отклонении нулевой гипотезы в случае, когда она является истинной. Ошибка II рода состоит в принятии нулевой гипотезы, когда она является ложной.
Площадь под ROC-кривой (Area Under The ROC Curve) AUC, Область под ROC-кривой Часть координатной плоскости под графиком ROC-кривой. В математической статистике и машинном обучении является мерой качества модели бинарной классификации. В идеальной модели площадь под ROC-кривой максимальна и равна 1.
Поддержка ассоциативного правила (Association Rule Support) Показатель, характеризующий качество ассоциативного правила. Является мерой надежности, с которой ассоциативное правило выражает связь между условием и следствием.
Показатели оценки инвестиций (Investment appraisal indicators) Набор финансовых показателей, которые позволяют оценить ожидаемую прибыльность инвестиций с различных точек зрения, а также определить насколько тот или иной инвестиционный проект соответствует интересам участников и их бизнес-целям.
Показатель аддитивный (Additive measure) Аддитивная мера, Аддитивный факт, Агрегируемый показатель, Additive fact, Additive index, Aggregate index Показатель (факт), в многомерном хранилище данных, который можно агрегировать по всем связанным с ним измерениям.
Ранговая корреляция (Rank correlation) Rank-order correlation Статистическая процедура выявления и описания силы зависимости между признаками, представленными в ранговой (порядковой) шкале. Является одним из методов корреляционного анализа.
Распределение Стьюдента (Student's distribution) t-распределение В математической статистике — семейство непрерывных одномерных распределений с одним параметром — числом степеней свободы. В анализе данных используется для проверки гипотез о значимости моделей регрессии.
Распределение Фишера (Fisher's distribution) F-распределение, Распределение Снедекора В теории вероятностей — двухпараметрическое семейство абсолютно непрерывных распределений. Применяется для проверки статистических гипотез, в частности, при оценке значимости регрессионных моделей.
Расстояние Евклида (Euclid distance) Евклидово расстояние, Евклидова метрика Геометрическое расстояние в многомерном пространстве. Широко используется в анализе данных как критерий для объединения наблюдений в классы и кластеры, оценки ошибок в предсказательной аналитике, в визуализации данных.
Расстояние Левенштейна (Levenshtein’s distance) Редакционное расстояние, Дистанция редактирования Определяет, сколько раз необходимо добавить/удалить/заменить символ, чтобы одну строку превратить в другую. Может служить фильтром, отбрасывающим неприемлемые варианты, у которых значение функции больше заданной константы.
Среднеквадратическое отклонение (Mean square deviation) Среднее квадратическое отклонение, Среднеквадратичное отклонение, Квадратичное отклонение, Стандартное отклонение, Standard deviation Статистическая характеристика распределения случайной величины, показывающая среднюю степень разброса ее значений относительно математического ожидания. В анализе данных используется как мера изменчивости значений признаков.
Средняя абсолютная ошибка (Mean Absolute Error) Средняя абсолютная погрешность, MAE В статистике и машинном обучении используется в качестве меры оценки точности аналитических моделей, а также для их сравнения. Определяется как среднее абсолютных разностей между оценкой, которую на даном примере выдала модель и целевым значением.
Средняя относительная ошибка (Mean Relational Error) Средняя относительная ошибка в процентах, Mean Relational Percentage Error, MRPE, Mean absolute percent error, MAPE, MRE В статистике и машинном обучении используется в качестве относительной меры оценки точности аналитических моделей, а также для их сравнения. Определяется как среднее абсолютных разностей между оценкой, которую на данном примере выдала модель и целевым значением, отнесенных к величине целевого значения.
Стандартная ошибка оценивания (Standard estimation error) Величина, равная квадратному корню среднеквадратической ошибки регрессии. Позволяет увидеть степень отклонения полученных значений с фактическими и таким образом оценить точность модели.
Статистическая значимость (Statistical significance) Оцененная мера уверенности в том, что полученный результат не является случайным. Результатом могут быть различие распределения двух выборок, степень отличия некоторого статистического распределения от нормального и т.д.
Статистическая мощность (Statistical power) Мощность проверки бинарной гипотезы, Power of a test В математической статистике вероятность того, что в результате статистического теста нулевая гипотеза будет правильно отклонена при условии, что альтернативная гипотеза истинна.
Текущий запас (Current stock) Резервы, обеспечивающие непрерывное движение материального потока между очередными поставками.
Тест Вальда (Wald test) Статистический тест с широким диапазоном применения. Наиболее часто используется для проверки гипотез, связанных с оценками параметров вероятностных моделей, получаемых на основе выборочных данных.
Тест отношения правдоподобия (Likelihood-ratio test) Тест Уилкса, Wilks’s test, LR-test Статистический тест для сравнения двух моделей, одна из которых строится на всех переменных исходного набора данных, а другая на некоторым их подмножестве.
Тест Чоу (Chow test) Позволяет оценить значимость улучшения регрессионной модели после разделения исходной выборки на части. Имеет большое практическое значение в анализе данных для повышения точности моделей.
Точность (Precision) Степень соответствия результатов, полученных в процессе исследований, измерений, экспериментов, истинным значениям. В анализе данных обычно ищут компромисс между точностью аналитической модели и затратами на ее реализацию.
Уровень значимости (Significance level) Уровень достоверности В математической статистике — величина для оценки истинности некоторого результата или гипотезы. Например, при проверке статистической гипотезы — это вероятность отклонить нулевую гипотезу, если на самом деле она истинна.
Фактор сна (Churn factor) Фактор оттока Индивидуальный показатель ухода клиента, определяемый на основе частоты его действий. Чем выше данный показатель, тем больше вероятность, что клиент ушел безвозвратно.
Финансовые коэффициенты (Financial ratios) Величины, отражающие результаты финансовой деятельности компании и рассчитываемые на основе данных финансовой отчетности.
Хи-квадрат критерий (Chi-square test) Критерий согласия Пирсона Критерий согласия для проверки гипотезы о законе распределения исследуемой случайной величины. Служит для подтверждения или опровержения гипотезы о том, что эмпирически полученное распределение соответствует некоторому теоретическому закону.
Частный F-тест (Partial F-test) Статистический метод, в котором производится сравнение среднего квадрата регрессии со средним квадратом ошибки регрессии. Используется для отбора входных переменных в моделях множественной линейной регрессии.
Чувствительность (Sensitivity) True positive rate, Recall, TPR Показатель, отражающий точность модели бинарной классификации. Определяется как отношение числа истинно-положительных классификаций к общему числу положительных классификаций.
Шанс (Odds) количественая характеристика генеральной совокупности, равная отношению вероятности того, что событие произойдет к вероятности того, что событие не произойдет.
Экстремум взаимокорреляционной функции (Cross-correlation function extremum) Экстремум взаимной корреляционной функции, Экстремум взаимнокорреляционной функции, CCF extremum Величина, используемая в анализе временных рядов, которая позволяет определить насколько поведение двух временных рядов похоже с целью построить модель прогноза одного ряда на основе исторических значений другого.