Автокорреляционная функция (Autocorrelation function) АКФ, ACF |
Автокорреляционная функция показывает степень линейной статистической связи между значениями временного ряда. Представляет собой последовательность коэффициентов корреляции между исходным рядом, и его копией, сдвинутой на заданное число интервалов ряда. Позволяет обнаруживать во временных рядах тенденции и циклические компоненты, |
Байесовский информационный критерий (Bayesian information criterion) BIC, Критерий Шварца, SC, Schwarz Criterion |
Критерий выбора статистической модели. Задача состоит в том, чтобы включить в модель минимум параметров, которые, тем не менее, вносили бы наибольший вклад в значение функции правдоподобия. Синонимы — BIC, Критерий Шварца. |
Вес доказательства (Weight of evidence) Коэффициент WoE, Coefficient WoE |
В задачах бинарной классификации используется для формирования конечных классов. Коэффициенты WoE и вычисленные на их основе значения IV являются критерием для формирования конечных классов оптимальным образом. |
Дисперсия (Variance) |
В статистике — величина, которая характеризует меру разброса значений случайной величины относительно ее математического ожидания. Является одним из параметров нормального закона распределения. |
Доверительный интервал (Confidence interval) |
В математической статистике — интервал, в пределах которого с заданной вероятностью лежат выборочные оценки статистических характеристик генеральной совокупности. |
Достоверность (Reliability) |
Несомненная верность чего-либо. В анализе данных говорят о достоверности информации, необходимой для принятия решений. Она должна обладать свойствами полноты, актуальности, точности, непротиворечивости и т.д. |
Индекс Джини (Gini index) |
Статистический показатель, с помощью которого можно описывать характер изменения одной величины относительно изменения другой. Основное применение — оценка неравномерности распределения изучаемого признака. |
Индекс стабильности популяции (Population stability Index) PSI |
Распространенная метрика для мониторинга актуальности текущего состояния аналитических моделей. Значение метрики показывает насколько сильно изменились свойства данных (популяции) с момента построения подели и позволяет сделать вывод о целесообразности дальнейшего использования модели или необходимости ее уточнения. |
Интерквартильный размах (Interquartile range) IQR, Midspread, Middle 50%, Fourth spread, H‑spread |
В описательной статистике мера разброса значений данных относительно медианы. Равен разности между 1-м и 3-м квартилями распредления. |
Информационная энтропия (Information entropy) Энтропия Шеннона |
В теории информации энтропия — это средняя скорость генерирования значений некоторым случайным источником данных. В анализе данных используется в алгоритмах классификации как мера классовой однородности подмножеств наблюдений. |
Информационный индекс (Information value) Коэффициент IV, Coefficient IV |
Величина, определяющая значимость переменной в модели бинарной классификации. Вычисляется на основе коэффициентов WoE. Является критерием для формирования конечных классов оптимальным образом. |
Информационный критерий Акаике (Akaike's information criterion) AIC |
Критерий для выбора лучшей из статистических моделей, построенных на одном и том же наборе данных и использующих логарифмическую функцию правдоподобия. Позволяет найти компромисс между сложностью модели и ее точностью. |
Информационный критерий Акаике скорректированный (Akaike's information criterion corrected) AICc |
Модифицированный критерий Акаике, который применяется для выборок малого размера, когда отношение числа содержащихся в выборке примеров к числу параметров модели меньше 40. Т.е. вводится поправка на ограниченный объем выборки. |
Информационный критерий Ханнана-Куина (Hannan-Quinn criterion) HQ |
В статистике и анализе данных — критерий для сравнения моделей с разным числом параметров, когда требуется выбрать лучший набор независимых переменных. Лучшая модель имеет наименьшее значение критерия. |
Ключевые показатели эффективности (Key Performance Indicators) KPI, КПЭ |
Система числовых показателей для оценивания эффективности деятельности компании в целом, или отдельных ее подразделений, работников и направлений деятельности. Позволяют оценить текущее состояние предприятия, определить, насколько далеко оно от оптимального, а также выявить возможности по улучшению. |
Коэффициент вариации (Variation coefficient) |
В статистике — отношение стандартного (среднеквадратичного) отклонения случайной величины к ее математическому ожиданию. Одно из важных применений коэффициента вариации — оценка инвестиционных рисков. |
Коэффициент детерминации (Coefficient of determination) Коэффициент смешанной корреляции, Коэффициент R-квадрат |
Отражает объясняющую способность регрессии. Равен отношению суммы квадратов регрессии к общей вариации. Является статистической мерой согласия. Позволяет определить, насколько уравнение регрессии соответствует реальным данным. |
Коэффициент детерминации МакФаддена (Coefficient of determination McFadden's) Коэффициент R-квадрат |
Коэффициент детерминации МакФаддена и скорректированный коэффициент детерминации МакФаддена применяются для оценки степени соответствия модели регрессии реальным данным (логит, пробит, гомпит регрессий). |
Коэффициент конверсии (Conversion rate) |
В конверсионном маркетинге — отношение числа посетителей интеренет-ресурса, проявивших на нем целевую активность, к общему числу посетителей. Характеризует эффективность ресурса, рекламирующего товары или услуги компании. |
Коэффициент корреляции (Correlation coefficient) |
В математической статистике — показатель, характеризующий силу статистической связи между двумя или несколькими случайными величинами. Широко применяется в анализе данных для отбора переменных в аналитические модели. |
Коэффициент ранговой корреляции Кендалла (Kendall rank correlation coefficient) Kendall rank-order correlation coefficient, Kendall's τ coefficient, Тау-корреляция |
В математической статистике — метод корреляционного анализа, описывающий зависимость между переменными, представленными в порядковой (ранговой) шкале. |
Коэффициент ранговой корреляции Спирмена (Spearman's rank correlation coefficient) Spearman's rank-order correlation coefficient, ро-коэффициент |
Статистический показатель, описывающий зависимость между признаками, представленными в порядковой (ранговой) шкале. Аналогичен коэффициенту корреляции Пирсона, но использует при расчетах не значения признаков, а их ранги. |
Коэффициент силуэта кластера (Cluster silhouette index) Индекс силуэта, Коэффициент силуэта, Silhouette index, Silhouette coefficient |
Показатель, позволяющий оценить степень соответствия построенной кластерной структуры обучающим данным на основе анализа внутрикластерных и междукластерных расстояний. |
Коэффициент удержания клиентов (Customer Retention rate) Retention Rate, CRR |
Показатель, отражающий способность компании поддерживать долгосрочные отношения с клиентами, а также осуществлять мониторинг эффективности ее стратегии по удержанию клиентов. |
Коэффициент эластичности (Elasticity coefficient) |
Характеризует относительное изменение одного признака при относительном изменении другого. В экономике и бизнесе используется для анализа соотношения спроса и цены. |
Критерий Дарбина-Уотсона (Durbin-Watson statistic) |
Применяется для обнаружения автокорреляции во временных рядах. Также с помощью критерия Дарбина-Уотсона выявляют наличие коинтеграции (продолжительной линейной зависимости) между двумя временными рядами. |
Критерий Колмогорова-Смирнова (Kolmogorov–Smirnov test) K–S test, KS test |
Статистический критерий для определения соответствия эмпирического и теоретического вероятностных распределений, а также сравнения распределений двух выборок. |
Критерий прироста информации (Information Gain) |
В анализе данных и машинном обучении — критерий, используемый для выбора лучшего разбиения подмножеств в узлах деревьев решений в алгоритмах обучения ID3 и С4.5. |
Критерий согласия (Fitting criterion) |
Статистическое правило, по которому принимается или отвергается гипотеза о том, что исследуемая случайная величина подчиняется заданному эмпирическому закону распределения. Имеет важное значение при применении статистических методов анализа. |
Критерий Фишера (F-test) F-критерий |
Статистический критерий для оценки значимости различия дисперсий двух случайных выборок. В Data Mining применяется для оценки значимости регрессионных моделей. |
Лифт ассоциативного правила (Lift of Association Rule) |
В анализе данных — субъективная мера значимости ассоциативного правила. Правило, имеющее значение лифта больше 1, может считаться значимым. Значение меньше 1 указывает на наличие «антиправила». |
Лифт-кривая (Lift-Curve) |
Визуальное средство для оценивания предсказательной способности и сравнения моделей бинарной классификации, а также оптимизации издержек классификации. |
Математическое ожидание (Expectation value) Ожидаемое значение, Expected value |
Среднее значение случайной величины, полученное при бесконечном числе испытаний или по выборке бесконечного размера. Одно из важнейших понятий теории вероятности, поскольку может служить усредненной оценкой случайной величины. |
Матрица миграции (Migration matrix) Матрица переходов Маркова, Матрица вероятностей переходов, Стохастическая матрица, Probability matrix, Transition matrix, Markov matrix, Stochastic matrix |
Инструмент для оценивания кредитных рисков на основе вероятностей перехода (миграции) кредита из одной категории качества в другую. Матрица миграции состоит из вероятностей таких переходов. |
Матрица ошибок (Error matrix) Матрица неточностей, Confusion matrix |
Способ визуализации результатов работы классификатора для оценки его качества. |
Медиана (Median) Медиана статистическая, Непараметрическая средняя |
В статистике и теории вероятности — величина, такая что половина значений выборки больше нее, а другая половина — меньше. Иными словами, медиана представляет собой срединное значение упорядоченного по возрастанию (или убыванию) числового ряда. Используется как альтернатива среднему, устойчивая к выбросам и аномалиям в данных. |
Мера (Measure) Показатель, Факт, Fact |
Качественная или количественная характеристика состояния некоторого объекта или процесса. В анализе данных и многомерном моделировании является синонимом факта. |
Метрика (Metric) Метрическое пространство |
В анализе данных — функция для определения расстояния между многомерными векторами в пространстве признаков. Понятие метрики важно для понимания работы моделей анализа данных, использующих операции с многомерными векторами. |
Метрика TF-IDF (Term frequency–inverse document frequency) |
TF-IDF — статистический показатель, применяемый для оценки важности слова для категории, документа или коллекции. Используется при анализе текстовых данных и рассчитывается для каждого слова. |
Мода распределения (Mode) |
В статистике — значение, которое случайная величина на заданном множестве наблюдений принимает наиболее часто. С точки зрения анализа данных, мода несет информацию о типичных значениях признака. |
Нормальное распределение (Normal Distribution) Распределение Гаусса, Gauss Distribution |
В математической статистике и теории вероятностей — распределение вероятностей, которое задается функцией Гаусса. Типичная ситуация в анализе данных и служит хорошей моделью для многих реальных процессов. |
Нормы запасов (Inventory rates) |
Минимальное количество предметов труда, находящееся у предприятия и необходимое для бесперебойного снабжения производства или торговли. |
Оборачиваемость запасов (Stock turnover) Оборачиваемость, Коэффициент оборачиваемости запасов, Stock, Inventory turnover ratio |
Показатель, указывающий сколько раз за анализируемый период компания использовала средний имеющийся остаток запасов. |
Оборачиваемость товаров (Turnover of goods) |
Количество оборотов товаров за заданный отрезок времени. |
Отношение правдоподобия (Likelihood ratio) |
В теории вероятности — отношение вероятности получить положительный результат для положительного исхода к вероятности получить положительный результат для отрицательного исхода. |
Отношение шансов (Odds ratio) OR |
Статистика, которая количественно определяет силу связи между двумя событиями из одной статистической совокупности. Определяется как отношение вероятности события A в присутствии B к вероятности события A в отсутствие B. |
Ошибка обобщения (Generalization error) |
Ошибка, которую модель, основанная на машинном обучении, показывает на примерах, не участвовавших в процессе обучения. Служит для оценивания «подгонки» модели к обучающему множеству и для выявления эффекта переобучения. |
Ошибка обучения (Training Error) Ошибка на обучающем множестве |
В машинном обучении — разность между желаемым (целевым) и фактическим выходом модели на примерах обучающего множества. Особенно большую роль играет при обучении нейронной сети, т.к. используется для расчета коррекции весов нейронов. |
Ошибки I и II рода (Type I errors, type II errors) |
Ключевые понятия в математической статистике. Ошибка I рода заключается в отклонении нулевой гипотезы в случае, когда она является истинной. Ошибка II рода состоит в принятии нулевой гипотезы, когда она является ложной. |
Площадь под ROC-кривой (Area Under The ROC Curve) AUC, Область под ROC-кривой |
Часть координатной плоскости под графиком ROC-кривой. В математической статистике и машинном обучении является мерой качества модели бинарной классификации. В идеальной модели площадь под ROC-кривой максимальна и равна 1. |
Поддержка ассоциативного правила (Association Rule Support) |
Показатель, характеризующий качество ассоциативного правила. Является мерой надежности, с которой ассоциативное правило выражает связь между условием и следствием. |
Показатели оценки инвестиций (Investment appraisal indicators) |
Набор финансовых показателей, которые позволяют оценить ожидаемую прибыльность инвестиций с различных точек зрения, а также определить насколько тот или иной инвестиционный проект соответствует интересам участников и их бизнес-целям. |
Показатель аддитивный (Additive measure) Аддитивная мера, Аддитивный факт, Агрегируемый показатель, Additive fact, Additive index, Aggregate index |
Показатель (факт), в многомерном хранилище данных, который можно агрегировать по всем связанным с ним измерениям. |
Показатель неаддитивный (Non-additive measure) Неаддитивный факт, Неаддитивная мера, Non-additive fact, Non-additive index |
Показатель (факт) многомерной модели данных, для которого агрегирование не имеет смысла ни по одному из ее измерений. |
Ранговая корреляция (Rank correlation) Rank-order correlation |
Статистическая процедура выявления и описания силы зависимости между признаками, представленными в ранговой (порядковой) шкале. Является одним из методов корреляционного анализа. |
Распределение Стьюдента (Student's distribution) t-распределение |
В математической статистике — семейство непрерывных одномерных распределений с одним параметром — числом степеней свободы. В анализе данных используется для проверки гипотез о значимости моделей регрессии. |
Распределение Фишера (Fisher's distribution) F-распределение, Распределение Снедекора |
В теории вероятностей — двухпараметрическое семейство абсолютно непрерывных распределений. Применяется для проверки статистических гипотез, в частности, при оценке значимости регрессионных моделей. |
Расстояние Евклида (Euclid distance) Евклидово расстояние, Евклидова метрика |
Геометрическое расстояние в многомерном пространстве. Широко используется в анализе данных как критерий для объединения наблюдений в классы и кластеры, оценки ошибок в предсказательной аналитике, в визуализации данных. |
Расстояние Левенштейна (Levenshtein’s distance) Редакционное расстояние, Дистанция редактирования |
Определяет, сколько раз необходимо добавить/удалить/заменить символ, чтобы одну строку превратить в другую. Может служить фильтром, отбрасывающим неприемлемые варианты, у которых значение функции больше заданной константы. |
Расстояние Хэмминга (Hamming distance) Кодовое расстояние |
Величина, определяющая степень различия между двумя строками одинаковой длины, вычисляемая как количество позиций, в которых соответствующие символы отличаются. |
Среднеквадратическое отклонение (Mean square deviation) Среднее квадратическое отклонение, Среднеквадратичное отклонение, Квадратичное отклонение, Стандартное отклонение, Standard deviation |
Статистическая характеристика распределения случайной величины, показывающая среднюю степень разброса ее значений относительно математического ожидания. В анализе данных используется как мера изменчивости значений признаков. |
Средняя абсолютная ошибка (Mean Absolute Error) Средняя абсолютная погрешность, MAE |
В статистике и машинном обучении используется в качестве меры оценки точности аналитических моделей, а также для их сравнения. Определяется как среднее абсолютных разностей между оценкой, которую на даном примере выдала модель и целевым значением. |
Средняя относительная ошибка (Mean Relational Error) Средняя относительная ошибка в процентах, Mean Relational Percentage Error, MRPE, Mean absolute percent error, MAPE, MRE |
В статистике и машинном обучении используется в качестве относительной меры оценки точности аналитических моделей, а также для их сравнения. Определяется как среднее абсолютных разностей между оценкой, которую на данном примере выдала модель и целевым значением, отнесенных к величине целевого значения. |
Стандартная ошибка оценивания (Standard estimation error) |
Величина, равная квадратному корню среднеквадратической ошибки регрессии. Позволяет увидеть степень отклонения полученных значений с фактическими и таким образом оценить точность модели. |
Статистическая значимость (Statistical significance) |
Оцененная мера уверенности в том, что полученный результат не является случайным. Результатом могут быть различие распределения двух выборок, степень отличия некоторого статистического распределения от нормального и т.д. |
Статистическая мощность (Statistical power) Мощность проверки бинарной гипотезы, Power of a test |
В математической статистике вероятность того, что в результате статистического теста нулевая гипотеза будет правильно отклонена при условии, что альтернативная гипотеза истинна. |
Текущий запас (Current stock) |
Резервы, обеспечивающие непрерывное движение материального потока между очередными поставками. |
Тест Вальда (Wald test) |
Статистический тест с широким диапазоном применения. Наиболее часто используется для проверки гипотез, связанных с оценками параметров вероятностных моделей, получаемых на основе выборочных данных. |
Тест отношения правдоподобия (Likelihood-ratio test) Тест Уилкса, Wilks’s test, LR-test |
Статистический тест для сравнения двух моделей, одна из которых строится на всех переменных исходного набора данных, а другая на некоторым их подмножестве. |
Тест Чоу (Chow test) |
Позволяет оценить значимость улучшения регрессионной модели после разделения исходной выборки на части. Имеет большое практическое значение в анализе данных для повышения точности моделей. |
Точность (Precision) |
Степень соответствия результатов, полученных в процессе исследований, измерений, экспериментов, истинным значениям. В анализе данных обычно ищут компромисс между точностью аналитической модели и затратами на ее реализацию. |
Уровень значимости (Significance level) Уровень достоверности |
В математической статистике — величина для оценки истинности некоторого результата или гипотезы. Например, при проверке статистической гипотезы — это вероятность отклонить нулевую гипотезу, если на самом деле она истинна. |
Фактор сна (Churn factor) Фактор оттока |
Индивидуальный показатель ухода клиента, определяемый на основе частоты его действий. Чем выше данный показатель, тем больше вероятность, что клиент ушел безвозвратно. |
Финансовые коэффициенты (Financial ratios) |
Величины, отражающие результаты финансовой деятельности компании и рассчитываемые на основе данных финансовой отчетности. |
Хи-квадрат критерий (Chi-square test) Критерий согласия Пирсона |
Критерий согласия для проверки гипотезы о законе распределения исследуемой случайной величины. Служит для подтверждения или опровержения гипотезы о том, что эмпирически полученное распределение соответствует некоторому теоретическому закону. |
Частный F-тест (Partial F-test) |
Статистический метод, в котором производится сравнение среднего квадрата регрессии со средним квадратом ошибки регрессии. Используется для отбора входных переменных в моделях множественной линейной регрессии. |
Чувствительность (Sensitivity) True positive rate, Recall, TPR |
Показатель, отражающий точность модели бинарной классификации. Определяется как отношение числа истинно-положительных классификаций к общему числу положительных классификаций. |
Шанс (Odds) |
количественая характеристика генеральной совокупности, равная отношению вероятности того, что событие произойдет к вероятности того, что событие не произойдет. |
Экстремум взаимокорреляционной функции (Cross-correlation function extremum) Экстремум взаимной корреляционной функции, Экстремум взаимнокорреляционной функции, CCF extremum |
Величина, используемая в анализе временных рядов, которая позволяет определить насколько поведение двух временных рядов похоже с целью построить модель прогноза одного ряда на основе исторических значений другого. |