Алгоритмы

Название/Синоним Описание
Автокорреляция (Autocorrelation) Мера статистической связи между функцией и ее копией, сдвинутой на некоторый интервал, называемый лагом. В анализе данных автокорреляция широко используется для анализа и моделирования временных рядов.
Авторегрессионная модель (Autoregressive model) Авторегрессивная модель Модель временного ряда, в которой его текущее значение линейно зависит от предыдущих (ретроспективных) значений. Основное назначение — прогнозирование, выявление тенденций и других особенностей.
Алгоритм Apriori (Apriori algorithm) Алгоритм поиска ассоциативных правил, которые генерируются на основе всех обнаруженных частых предметных наборов и удовлетворяют заданному уровню поддержки и достоверности. Позволяет сократить пространства поиска благодаря свойству антимонотонности множеств.
Алгоритм AQ (AQ algorithm) Разновидность алгоритмов покрытия. Формирует классификатор, состоящий из набора правил вида «если, то». В машинном обучении строится на основе обучения с учителем.
Алгоритм C4.5 (Algorithm C4.5) Улучшенная модификация алгоритма ID3 для построения деревьев решений. Использует критерий информационной энтропии, или прироста информации. Способен работать с непрерывными и дискретными атрибутами и обучаться на данных, содержащих пропуски.
Алгоритм CART (CART algorithm) Classification and Regression Tree Популярный алгоритм построения деревьев решений. Может работать с дискретной и непрерывной выходной переменной, т.е. решать задачи и классификации, и регрессии. Выбирает такое разбиение из всех возможных, чтобы дочерние узлы были максимально однородными.
Алгоритм ID3 (ID3 algorithm) Iterative Dichotomizer-3 Наиболее популярный алгоритм обучения деревьев решений. Основан на рекурсивном разбиении обучающего множества на подмножества с помощью решающих правил. Целью является получение компактного, простого, но достаточно точного дерева.
Алгоритм обратного распространения ошибки (Back propagation algorithm) Алгоритм BackProp, Алгоритм Back Propagation, BackProp Один из наиболее известных алгоритмов машинного обучения и обучения нейронных сетей. Использует выходную ошибку нейронной сети для вычисления величин коррекции весов нейронов в ее скрытых слоях.
Алгоритм последовательного покрытия (Sequential covering algorithm) Алгоритм, генерирующий набор классифицирующих правил, которые последовательно разделяют обучающее множество на подмножества до тех пор, пока в каждом из них не останутся объекты только одного класса.
Анализ с помощью характеристической кривой (ROC-analisys) ROC-анализ Графический метод оценки качества работы бинарного классификатора и выбора дискриминационного порога для разделения классов. Отражает связь между вероятностью ложной тревоги и вероятностью правильного обнаружения.
Аппроксимация (Approximation) Математический метод, который сводит задачу исследования характеристик объекта к изучению более простых или более удобных объектов. Например, неизвестная функция, описывающая реальные наблюдения, заменяется известным уравнением.
Байесовский классификатор (Bayesian classifier) Простой байесовский классификатор, Байесовская классификация, Наивный байесовский классификатор, Naive Bayes Семейство простых вероятностных классификаторов, основанных на использовании теоремы Байеса и «наивном» предположении о независимости признаков классифицируемых объектов.
Бинарная классификация (Binary classification) Классификация с бинарной выходной переменной, которая может принимать только два значения. Относит объект к одному из двух классов. К бинарной может быть сведено множество задач классификации в Data Mining.
Бустинг (Boosting) Усиление, Улучшение В теории машинного обучения — метод построения ансамбля моделей, при котором базовые модели обучаются последовательно и каждая последующая модель ансамбля применяется к результатам на выходе предыдущей.
Бутстрап (Bootstrap) Статистическая процедура, основанная на выборке с замещением для определения точности выборочных оценок дисперсии, среднего, стандартного отклонения, доверительных интервалов и других структурных характеристик совокупности.
Бэггинг (Bootstrap aggregating) В теории машинного обучения — метод построения ансамбля моделей, в котором обучение базовых моделей производится параллельно. Каждая модель обучается на отдельной выборке. Позволяет улучшить точность алгоритмов, уменьшить дисперсию ошибки и эффект переобучения.
Вейвлет-преобразование (Wavelet Transform) Метод преобразования данных к представлению, в котором они могут быть локализованы как по времени, так и по частоте. Основное использование вейвлет-преобразования — сжатие данных, их сглаживание, очистка от шума.
Векторизация текста (Text Data Vectorization) Конвертация текста в числа, необходимая для работы алгоритмов машинного обучения.
Выборочный метод (Sampling method) Метод математической статистики, когда свойства генеральной совокупности изучаются на основе исследования свойств её части, полученной с помощью определенного алгоритма выборки.
Генетический алгоритм (Genetic algorithm) Метод решения задач оптимизации, основанный на принципах процессов естественного отбора (мутация, скрещивание, отбор). Является частью более обширного направления искусственного интеллекта — эволюционных вычислений.
Гиперпараметры (Hyperparameters) В машинном обучении — параметры алгоритмов, значения которых устанавливаются перед запуском процесса обучения (тогда как обычные параметры вычисляются в процессе обучения). Используются для управления процессом обучения.
Дельта-правило (Delta rule) В теории нейронных сетей — метод обучения перцептрона на основе градиентного спуска. Развитие дельта-правила привело к созданию алгоритма обратного распространения ошибки.
Дерево решений (Decision Trees) Дерево классификаций, Classification Tree Один из наиболее популярных инструментов классификации в интеллектуальном анализе данных и бизнес-аналитике. Строится на основе решающих правил вида «если, то», упорядоченных в древовидную иерархическую структуру.
Детерминистский метод обучения (Deterministic approach) Детерминистское обучение, Deterministic Learning В машинном обучении — подход, когда изменения параметров обучаемой модели на каждой итерации определяются только ее текущим состоянием, значениями входов и выходов и некоторым правилом. Характерен для обучения нейронных сетей.
Дискриминантный линейный анализ (Linear discriminant analysis) Методы статистики и машинного обучения для нахождения линейных комбинаций признаков, наилучшим образом разделяющих классы объектов или событий. Позволяет изучать различия между группами объектов по нескольким признакам одновременно.
Дискриминационный порог (Discrimination Threshold) Порог отсечки, Уровень отсечки В статистике и машинном обучении — значение дискриминирующей функции в задачах бинарной классификации, которое позволяет разделять классы. Настраивается так, чтобы минимизировать число ошибок классификации.
Дисперсионный анализ (Analysis of variance) ANOVA Статистический метод для определения влияния различных факторов на исследуемую переменную. Применяется для выбора наиболее важных факторов и оценки их влияния.
Задача классификации (Classification problem) Задача разделения множества наблюдений (объектов) на группы, называемые классами. Является одной из базовых задач прикладной статистики и машинного обучения, а также искусственного интеллекта в целом.
Интерполяция (Interpolation) Интерполирование Метод нахождения неизвестных промежуточных значений функции по имеющемуся дискретному набору ее известных значений. В анализе данных используется для восстановления пропущенных и замены аномальных значений.
Квантование (Binning) Дискретизация Процесс обработки данных, который преобразует непрерывные данные в дискретные путем замены значений диапазонами. Может использоваться для сокращения размерности данных, а именно для уменьшения числа разнообразных значений признака.
Класс (Class) В статистике и анализе данных — группа объектов или явлений, обладающих общими свойствами. Выявление классифицирующих правил называется задачей классификации, а процесс распределения объектов по классам — классификацией.
Классификация (Classification) В анализе данных — разбиение множества объектов или наблюдений на заданные группы (классы), внутри каждой из которых они предполагаются похожими друг на друга, имеющими примерно одинаковые свойства и признаки.
Классификация с учетом издержек (Cost-sensitive classification) Классификация, чувствительная к издержкам Случай бинарной классификации, когда издержки ошибок классификации не одинаковы. Имеет большое значение в машинном обучении для квалификационных моделей (регрессия, нейросеть) в условиях несбалансированной выборки.
Классифицирующая функция (Classification function) Функция, которая присваивает каждому наблюдению метку класса в соответствии с определенным правилом или зависимостью. Может представлять собой набор правил, например, вида «если, то», или уравнение.
Кластеризация (Clustering) Сегментация, Segmentation Объединение объектов или наблюдений в непересекающиеся группы — кластеры, на основе близости значений их признаков. В Data Mining используется для сегментации клиентов и рынков, медицинской диагностики, социальных исследований и т.д.
Кластерный анализ (Cluster analysis) Технология многомерного анализа данных, в основе которой лежит кластеризация. Широко используется для обработки данных, полученных при проведении маркетинговых кампаний, для сегментации рынка и т.д.
Ковариация (Covariation) Корреляционный момент, Ковариационный момент В теории вероятностей и математической статистике — мера линейной зависимости двух случайных величин. Широко применяется при формировании инвестиционных и кредитных портфелей, ценообразовании, управлении инвестициями.
Корреляция (Correlation) Статистическая взаимосвязь двух или нескольких случайных величин. Исследования корреляционных зависимостей являются очень важными при построении аналитических моделей.
Лемматизация (Lemmatisation) Лемматизация позволяет привести все формы одного слова к единому значению. Это снижает вариативность одного и того же слова, что повышает качество анализа текста.
Линейная регрессия (Linear regression) В математической статистике — метод аппроксимации зависимостей между входными и выходными переменными на основе линейной модели. Является частью более широкой статистической методики — регрессионного анализа.
Логистическая регрессия (Logistic Regression) Логит-регрессия, Logit Regression Статистическая модель, которая использует логистическую функцию для моделирования зависимости бинарной выходной переменной от набора входных. Многие задачи анализа данных могут быть решены с помощью бинарной классификации.
Машины опорных векторов (Support vector machines) Метод опорных векторов, SVM В машинном обучении — семейство алгоритмов бинарной классификации, основанных на обучении с учителем, использующих линейное разделение пространства признаков с помощью гиперплоскости.
Метод k-ближайших соседей (K-nearest neighbor) Используется для решения задачи классификации. Относит объекты к классу, которому принадлежит большинство из k его ближайших соседей в многомерном пространстве признаков. Один из простейших алгоритмов обучения классификационных моделей.
Метод k-средних (K-means) Используется для кластеризации данных на основе алгоритма разбиения векторного пространства на заранее определенное число кластеров. Преимущества метода — скорость и простота реализации.
Метод главных компонент (Principal component analysis) Преобразование Хоттелинга, PCA Технология многомерного статистического анализа для сокращения размерности пространства признаков с минимальной потерей полезной информации. Широко используется в аналитике данных на этапе предобработки.
Метод Дельфи (Delphi technique) Estimate-Talk-Estimate, ETE, Метод структурированной коммуникации Метод интерактивного прогнозирования, основанный на оценках группы экспертов. Участники отвечают на вопросы в несколько раундов, после каждого из которых получают анонимные ответы других экспертов и могут уточнить свои суждения.
Метод имитации отжига (Simulated annealing) Метод модельной закалки, Алгоритм имитации отжига Вероятностный метод глобальной оптимизации функций. В анализе данных известен как популярный метод обучения нейронных сетей. Название метода происходит из металлургии, а именно технологии отжига металла.
Метод максимального правдоподобия (Maximum likelihood estimation) MLE, Метод наибольшего правдоподобия Статистический метод оценки параметров вероятностных распределений с помощью максимизации функции правдоподобия.
Метод Монте-Карло (Monte-Carlo technique) Метод статистических испытаний Класс вычислительных алгоритмов, моделирующих исследуемый процесс путем многократных повторений его случайных реализаций. Используются при решении задач оптимизации, численного интегрирования, анализа рисков в бизнесе и других.
Метод муравьиной колонии (Ant colony optimization) Муравьиный алгоритм Алгоритм для нахождения приближенных решений задач оптимизации на графах, таких как задача коммивояжера, транспортная задача и аналогичных. Используется во многих приложениях анализа.
Метод наименьших квадратов (Least-Squares method) МНК, Least squares Математический подход для оценки параметров моделей (например, регрессионной) на основании экспериментальных данных, содержащих случайные ошибки. Важнейшим применением метода в анализе данных является линейная регрессия.
Метод Ньютона (Newton method) Метод касательных, Алгоритм Ньютона Алгоритм для экспериментального поиска экстремума функции. Используется в анализе данных для решения задач оптимизации, где требуется определить нуль первой производной либо градиента в случае многомерного пространства.
Метод рулетки (Roulette wheel parent selection) Выбор родителей по правилу рулетки В генетических алгоритмах используется для определения, какие решения задачи (члены популяции) выбираются для размножения. Популяция представляется колесом рулетки, где сектор каждой особи пропорционален значению её показателя приспособленности.
Метод скользящего окна (Windowing method) Метод кадрирования В анализе данных — алгоритм трансформации, позволяющий сформировать из членов временного ряда набор данных, который может служить обучающим множеством для построения модели прогнозирования.
Мешок слов (Bag of words) Мешок слов — представление текста в виде массива, состоящего из отдельных слов и количества их использования. Применяется при анализе естественного языка и в составе алгоритмов компьютерного зрения. Является подготовительной стадией для подсчёта метрики «tf-idf».
Множественная линейная регрессия (Multiple Linear Regression) Многофакторная линейная регрессия Линейная регрессия, в модели которой число независимых переменных две или более. Несколько входных переменных позволяет увеличить долю объяснённой дисперсии выходной переменной.
Модель авторегрессии скользящего среднего (ARIMA) Модель Бокса-Дженкинса, АРИСС, Методология Бокса-Дженкинса, Autoregressive Integrated Moving Average, Box-Jenkins model Модель авторегрессии скользящего среднего, наиболее полно и компактно описывающая автокорреляционные свойства стационарного временного ряда. Широко применяется при прогнозировании временных рядов.
Модель Хольта (Holt's model) Модель прогнозирования, представляющая динамику временного ряда как линейную зависимость с постоянно изменяющимися параметрами.
Модель экспоненциального сглаживания (Exponential smoothing model) Модель Брауна, Brown model Один из простейших и распространенных приемов выравнивания временного ряда. Может отображать развитие в виде линейной тенденции, в виде случайного процесса, не имеющего тенденции, а также в виде изменяющейся параболической тенденции.
Н-грамма (N-gram) N-грамма N-грамма — последовательность звуков, слогов, букв или слов из N элементов. Широко применяется для предугадывания пропущенных в тексте слов, выявления плагиата, автоматического определения языка, исправления орфографических ошибок, распознания речи, извлечения знаний из текста.
Наивная модель (Naive approach) Наивный подход Модель временного ряда, в которой его текущее значение равно предыдущему наблюдаемому значению этого ряда.
Нейронная сеть (Neural network) Нейросеть, Искусственная нейронная сеть, Neural net Структура из искусственных нейронов, определенным образом связанных друг с другом и внешней средой. Представляет собой модель, основанную на машинном обучении. Нейросети широко используются в анализе данных.
Нечеткая логика (Fuzzy logic) Форма многозначной логики, в которой истинные значения переменных могут быть любыми действительными числами от 0 до 1 включительно. Применяется во многих областях, от теории управления до искусственного интеллекта.
Нормализация входных векторов (Normalization) Нормировка значений признаков В машинном обучении — процедура предобработки входных данных (обучающих, тестовых и рабочих множеств), при которой значения признаков, образующих входной вектор, приводятся к некоторому заданному диапазону.
Нормализация данных (Data normalization) Нормирование данных, Нормировка данных Метод предобработки числовых признаков в обучающих наборах данных с целью приведения их к некоторой общей шкале измерения без потери информации о различии диапазонов.
Обобщенные ассоциативные правила (Generalized Association Rules) Иерархические ассоциативные правила, Многоуровневые ассоциативные правила, Multilevel Associative Rules В анализе данных — правила, которые описывают ассоциативную связь не только между отдельными товарами и их наборами, но и товарными группами. Иногда связей между отдельными предметами не обнаруживается, но они выявляются между товарными группами.
Правило трех сигм (3-sigma rule) Правило утверждает, что вероятность отклонения случайной величины от своего математического ожидания более чем на три среднеквадратических отклонения практически равна нулю.
Преобразование Фурье (Fourier transform) Интегральное преобразование, которое преобразует функцию с временной области в частотную. Является основой методов спектрального анализа, позволяющего упростить некоторые задачи анализа данных.
Расширенная модель авторегрессии скользящего среднего (ARIMAX) Autoregressive Integrated Moving Average eXtended Модель авторегрессии скользящего среднего с расширениями, которая учитывает влияние внешнего фактора на прогнозируемую величину.
Регрессионный анализ (Regression analysis) Набор статистических процедур для изучения зависимостей между случайными переменными. В аналитических технологиях Data Mining широко используется для решения задач прогнозирования, оценивания, классификации.
Решающее правило (Decision Rule) Классифицирующее правило, Classification rule В машинном обучении и анализе данных — правила вида «если, то», определяющие принадлежность объекта к заданному классу. Применяются в деревьях решений и алгоритмах последовательного покрытия.
Самоорганизующаяся карта (Self Organizing map) Карта Кохонена, SOM, Kohonen map Разновидность сети Кохонена, которая позволяет не только производить кластеризацию объектов, но и выполнять многомерную визуализацию ее результатов. Количество выходных нейронов соответствует количеству сегментов карты.
Сеть Байеса (Bayesian Network) Вероятностная сеть Направленный ациклический граф, представляющий совместное распределение случайных переменных. Позволяет ослабить требование к условной независимости признаков и применить простой классификатор Байеса.
Сеть Кохонена (Kohonen network) Специальный тип нейронной сети для решения задачи кластеризации. Состоит из двух слоев — входного (распределительного) и выходного, который также называют слоем Кохонена.
Скользящее среднее (Moving Average) Метод скользящего среднего, Moving average method, Rolling average, Running average Метод сглаживания временных рядов с целью исключения влияния случайной составляющей. Заключается в замене фактических значений членов ряда средним арифметическим значений нескольких ближайших к нему членов.
Скоринговая карта (Scorecard) Набор характеристик потенциального заемщика и присваиваемых им весовых коэффициентов. Использование скоринговых карт — часть методики оценки кредитоспособности заёмщиков, называемой скоринговым моделированием.
Скоринговая модель (Scoring model) Модель скоринга Главный инструмент кредитного скоринга. Связывает параметры клиента с суммой, которую можно выдать ему, или степенью кредитного риска в конкретных условиях через систему скоринговых баллов.
Случайный лес (Random Forest) Случайный лес — алгоритм машинного обучения заключающийся в использовании ансамбля решающих деревьев, дающий необходимый результат за счет количества деревьев
Спектральный анализ (Spectral analysis) Фурье-анализ, Гармонический анализ, Frequency analysis Класс методов обработки данных, в основе которых лежит их частотное представление, или спектр. Один из наиболее эффективных и хорошо разработанных методов обработки данных.
Специфичность (Specificity) True Negative Rate, TNR Показатель, отражающий точность работы модели бинарной классификации. Определяется как отношение числа истинно-отрицательных классификаций к общему числу отрицательных классификаций.
Стемминг (Stemming) Стемминг позволяет выделить основу для заданного слова. Это даёт возможность проанализировать все словоформы одного слова как единый элемент, что значительно повышает качество анализа. Стемминг может осуществляться поиском по заданному словарю, удаление приставок, суффиксов и окончаний или комбинацией нескольких вариантов.
Сэмплинг (Sampling) Отбор Процесс отбора из исходного набора данных выборки наблюдений, представляющей интерес для анализа. При реализации сэмплинга используются специальные методы отбора, которые должны обеспечить репрезентативность выборки.
Теорема Байеса (Bayes’ theorem) Определяет вероятность события с привлечением связанных с ним знаний и условий. Например, если вероятность просрочки по кредиту связана со стажем работы клиента, то учет стажа позволяет более точно оценить вероятность просрочки.
Токенизация (Tokenization) Представляет собой процесс разделения текста на составляющие (слова, предложения, группы слов). Токенизация является важным обязательным процессом при применении алгоритмов машинного обучения и нейронных сетей для анализа текста.
Транспонирование (Transpose) В анализе данных — операция с таблицами, в результате которой столбцы таблицы становятся строками, а строки — столбцами. В линейной алгебре — операция над матрицами в результате которой матрица поворачивается относительно своей главной диагонали, при этом столбцы исходной матрицы становятся строками результирующей.
Факторный анализ (Factorial analysis) Направление математической статистики, помогающее обнаружить наиболее важные факторы, которые влияют на исследуемые процессы или объекты. Это позволяет строить аналитические модели с небольшим числом независимых переменных.
Фильтр Калмана (Kalman filter) В анализе данных — эффективный рекурсивный фильтр, оценивающий вектор состояния динамической системы, описанной рядом неполных и зашумленных измерений. Используется для исследования непрерывного временного ряда.
Фильтр Ходрика-Прескотта (Hodrick–Prescott filter) Разложение Ходрика–Прескотта, Декомпозиция Ходрика–Прескотта, Hodrick–Prescott decomposition, HP-filter В анализе временных рядов, метод сглаживания циклической составляющей и выделения трендовой. В результате временной ряд представляется в виде кривой, которая лучше отражает долгосрочные изменения, чем краткосрочные. Широко применяется в экономических исследованиях и бизнес-аналитике.
Эвристический алгоритм (Heuristic algorithm) Эвристические методы, Эвристика Практический метод решения задачи, не всегда приводящий к точным или оптимальным результатам, но позволяющий ускорить выполнение поставленного задания.
Экстраполяция (Extrapolation) Экстраполирование Разновидность аппроксимации, при которой оценивание значения переменной производится не внутри интервала её изменения, как при интерполяции, а вне его. Являются одними из самых распространенных и наиболее разработанных методов прогнозирования.