Случайный лес (Random Forest) Скачать в PDF

Разделы: Алгоритмы

Случайный лес — алгоритм машинного обучения, предложенный Лео Брейманом и Адель Катлер, заключающийся в использовании ансамбля решающих деревьев каждое из которых само по себе дает очень невысокое качество классификации, но за счет их большого количества получается необходимый результат. Точно так же, как инвестиции с низкими корреляциями (например, акции и облигации) объединяются, чтобы сформировать портфель больший, чем сумма его частей.

Алгоритм сочетает в себе две основные идеи: метод бэггинга Бреймана, и метод случайных подпространств, предложенный Тин Кам Хо. Алгоритм применяется для задач классификации, регрессии и кластеризации.

Достоинства:

Способность эффективно обрабатывать данные с большим числом признаков и классов;
Нечувствительность к любым монотонным преобразованиям значений признаков;
Одинаково хорошо обрабатываются как непрерывные, так и дискретные признаки;
Существуют методы оценивания значимости отдельных признаков;
Внутренняя оценка способности модели к обобщению;
Высокая параллелизуемость и масштабируемость;
Случайные леса очень гибки и обладают очень высокой точностью.

Недостатки:

Большой размер получающихся моделей;
Построение леса сложнее и отнимает больше времени;
Чем больше объем, тем меньше интуитивное понимание.