Кросс-валидация (Cross-validation) Скачать в PDF
Синонимы: Перекрестная проверка, Rotation estimation
Loginom: Валидация моделей
Кросс-валидация — это метод оценки аналитической модели и ее поведения на независимых данных с наиболее равномерным использованием имеющихся данных.
В основе метода лежит разделение исходного множества данных на примерно равных блоков, например . Затем на , т.е. на 4-х блоках, производится обучение модели, а 5-й блок используется для тестирования. Процедура повторяется раз, при этом на каждом проходе для проверки выбирается новый блок, а обучение производится на оставшихся.
Перекрестная проверка имеет важное преимущества перед применением одного множества для обучения и одного для тестирования модели: если при каждом проходе оценить выходную ошибку модели и усреднить ее по всем проходам, то полученная ее оценка будет более достоверной.
На практике чаще всего выбирается (10-ти проходная перекрестная проверка), когда модель обучается на 9/10 данных и тестируется на 1/10. Исследования показали, что в этом случае получается наиболее достоверная оценка выходной ошибки модели.