Обучение с учителем (Supervised learning) Скачать в PDF

Синонимы: Обучение контролируемое, Обучение управляемое, Associative learning

Обучение с учителем — это направление машинного обучения, объединяющее алгоритмы и методы построения моделей на основе множества примеров, содержащих пары «известный вход — известный выход».

Иными словами, чтобы алгоритм относился к обучению с учителем, он должен работать с примерами, которые содержат не только вектор независимых переменных (атрибутов, признаков), но и значение, которое должна выдавать модель после обучения (такое значение называется целевым). Разность между целевым и фактическим выходами модели называется ошибкой обучения (невязкой, остатками), которая минимизируется в процессе обучения и выступает в качестве «учителя». Значение выходной ошибки затем используется для вычисления коррекций параметров модели на каждой итерации обучения.

В анализе данных машинное обучение используется в задачах классификации и регрессии. В первом случае в качестве целевой переменной используется метка класса, а во втором — числовая переменная целого или вещественного типа.

В настоящее время разработано большое число алгоритмов обучения с учителем, каждый из которых имеет свои сильные и слабые стороны. Не существует единого алгоритма , который лучше всего подходит для всех задач анализа.

К числу алгоритмов обучения с учителем для решения задач классификации относятся:

Алгоритмами обучения с учителем для решения задачи регрессии являются:

Это деление не строгое поскольку, например, нейронные сети могут быть адаптированы для классификации, а некоторые виды деревьев решений (например, CART) позволяют производить численное предсказание.

Формальная общая постановка задачи машинного обучения с учителем имеет вид. Пусть имеется обучающее множество, состоящее из $N$ примеров. Каждый обучающий пример задается в следующем виде: ${(x_{1}, y_{1}), . . . ([x_{N}, y_{N}])}$ , где $x_{i}$ — вектор входных признаков $i$ -го примера, а $y_{i}$ — целевое значение $i$ -го примера.

Тогда алгоритм обучения ищет функцию $g : X \to Y$ , где $X$ — пространство входов модели, $Y$ — пространство выходов. Функция $g$ является элементом пространства функций $G$ , которое называют также пространством гипотез.

Функцию $g$ удобно представлять в виде другой функции $f : X \times Y \to R$ , такой, что $g$ определяется как возвращающая значение $y$ , которое обеспечивает равенство $g (x) = a r g m a x_{y} f (x, y)$ , где $f \in F$ .

Хотя $G$ и $F$ могут быть любыми пространствами функций, многие алгоритмы обучения являются вероятностными, где $g$ имеет вид условной вероятности $g (x) = P (y | x)$ или $f$ принимает вид совместной вероятностной модели $f (x, y) = P (x, y)$ . Например, простой классификатор Байеса и линейный дискриминантный анализ являются моделями совместной вероятности, а логистическая регрессия — условной вероятности.

Существует два основных подхода к выбору функций $g$ и $f$ : минимизация эмпирического риска и минимизация структурного риска. Минимизация эмпирического риска ищет функцию, которая наилучшим образом соответствует обучающим данным. Минимизация структурного риска включает в себя функцию штрафа, которая ищет компромисс между смещением и дисперсией (дилемма смещение-дисперсия — чем меньше смещение оценки параметра модели, тем выше ее дисперсия, и наоборот).

В обоих случаях предполагается, что обучающее множество состоит из независимых и одинаково распределенных пар $(x_{i}, y_{i})$ . С целью проверить насколько хорошо функция соответствует обучающим данным, определяется функция потерь: $L (y_{i},^y)$ , где $^y$ — значение, предсказанное моделью для примера $(x_{i}, y_{i})$ .

Риск $R (g)$ определяется как потери $g$ , которые на обучаемых данных могут быть оценены как:

$R (g) = \frac{1}{N} N \sum i = 1 L (y_{i}, g (x_{i}))$

Альтернативной техникой является обучение без учителя, когда целевая переменная в обучающих примерах отсутствует. Оно используется при решении задач кластеризации.