Активационная функция нейрона (Activation function) Скачать в PDF

Синонимы: Функция активации нейрона, Передаточная функция нейрона

В теории нейронных сетей активационной называется функция, аргументом которой является взвешенная сумма входов искусственного нейрона, а значением — выход нейрона:

$y = f (S)$

$S = N \sum i = 1 w_{i} x_{i}$ ,

где:

$S$ — взвешенная сумма входов нейрона;
$N$ — число входов нейрона;
$w_{i}$ — вес $i$ -го входа нейрона;
$x_{i}$ — значение, поступающее по $i$ -му входу;
$f (S)$ — активационная функция;
$y$ — выходное значение нейрона (и, соответственно, активационной функции).

От вида и формы используемой активационный функции зависит выбор алгоритма обучения сети, а также качество ее обучения на конкретном обучающем множестве. Параметры активационной функции подбираются экспериментально в процессе обучения.

Активационная функция

Первой активационной функцией, используемой в модели нейрона, предложенной У. МакКаллоком и У. Питтсом, была функция единичного скачка, или функция Хевисайда (график (а) на рисунке). Она задается формулой:

$f (S) = {\begin{matrix} 0, S < θ 1, S \geq θ \end{matrix}$

Таким образом, пока взвешенная сумма $S$ не превысит некоторый порог $θ$ , нейрон находится в «заторможенном» состоянии, и на его выходе всегда будет 0. Порог θ называют порогом активации или возбуждения, поскольку, как только сумма его превысит, нейрон переходит в «возбужденное» состояние и формирует на выходе 1. В этом случае нейрон называется бинарным.

Недостаток этой функции очевиден — она делает область значений выхода нейрона ограниченной и, по сути, сводит все возможности такой нейронной сети к решению задачи бинарной классификации. Чтобы аппроксимировать более сложные зависимости, нужно увеличивать число бинарных нейронов.

Эту проблему отчасти решает применение функции с линейным порогом (график (б) на рисунке):

$f (S) = ⎧ ⎪ ⎨ ⎪ ⎩ \begin{matrix} 0, S < 0 a S, 0 ⩽ S ⩽ θ 1, S > θ \end{matrix}$ ,

где $a$ — параметр крутизны.

Использование активационной функции в виде линейного порога расширяет область значений выхода нейрона, но при этом он все еще остается линейным преобразователем, что значительно снижает аппроксимирующие возможности сети. Кроме этого, наличие двух точек разрыва, где функция не дифференцируема, делает невозможным использование линейного порога в градиентных алгоритмах обучения, где используется производная активационной функции.

Поэтому при обучении многослойных нейронных сетей наиболее часто используются сигмоидальные активационные функции, названные так за их характерную $S$ -образную форму. Примерами таких функций являются гиперболический тангенс (график (в) на рисунке) и логистическая функция (график (г)), задаваемые соответствующими формулами:

$t h (S) = \frac{e^{a S} - e^{- a S}}{e^{a S} + e^{- a S}}$

$f (S) = \frac{1}{1 + e^{- a S}}$

Это монотонно возрастающие функции, дифференцируемые на всей области определения, что делает их применимыми в алгоритмах обучения, использующих производные активационной функции. Обычно все нейроны сети имеют одинаковую активационную функцию.

В Loginom встроено два обработчика, решающих задачу классификации и регрессии — нейросеть (классификация) и нейросеть (регрессия).