Обучение с подкреплением (Reinforcement learning) Скачать в PDF
Раздел машинного обучения, изучающий поведение интеллектуальных агентов, действующих в некоторой среде и принимающих решения. Наряду с обучением с учителем, обучением без учителя и глубоким обучением, является одной из четырех парадигм машинного обучения.
Откликом среды на принятые решения являются сигналы подкрепления, на основе которых производится обучение агента. Поэтому такое обучение является частным случаем обучения с учителем, где учителем является среда или ее модель (экспериментальная система).
Системой подкрепления называется любой набор правил, на основании которых можно изменять с течением времени состояние модели.