Сэмплинг (Sampling)
Синонимы: Отбор
Разделы: Бизнес-задачи, Алгоритмы
Loginom: Сэмплинг (обработчик)
Сэмплинг - это процесс отбора из исходного набора данных выборки наблюдений, представляющей интерес для анализа. При реализации сэмплинга используются специальные методы отбора, которые должны обеспечить репрезентативность выборки с точки зрения решаемой аналитической задачи.
На практике в бизнес-аналитике применяются выборочные методы. Это обусловлено различными обстоятельствами, в том числе:
- Снижение трудоемкости алгоритмов анализа. При анализе сравнительно небольшого подмножества данных временные и вычислительных затраты значительно сокращаются.
- Коррекция распределений значений в выборке. В некоторых случаях исходное распределение значений факторов в наборе данных может негативно сказываться на процессе обучения модели. Типичный пример – несбалансированность классов в задаче кредитного скоринга. Коррекция распределений может заключаться, например, в увеличении числа объектов с требуемыми характеристиками (oversampling) или их сокращении (undersampling).
Различают следующие виды сэмплинга:
- Случайный - выборка производится случайным образом из всей совокупности.
- Равномерный - все наблюдения исходной совокупности разделяются на группы, в каждой из которых содержится их одинаковое число. Затем из каждой группы случайным образом выбирается одно наблюдение и помещается в результирующую выборку. Выборка, полученная в результате сэмплинга, будет состоять из наблюдений, случайным образом отобранных из каждой группы.
- Стратификационный - применяется если исходная совокупность существенно неоднородна и случайный сэмплинг работает плохо. Тогда лучших результатов удается добиться, если разбить выборку на группы, и производить отбор наблюдений независимо от других групп. Выполняется в два этапа:
- стратификация – группировка элементов исходной совокупности в относительно однородные подгруппы, которые называются стратами или слоями.
- случайный отбор – случайная выборка из каждого слоя по отдельности.
- Последовательный - наблюдения извлекаются по порядку от начала исходной совокупности к её концу, и помещаются в выборку в том же порядке. Данный метод имеет смысл использовать, если наблюдения в генеральной совокупности определённым образом упорядочены и их последовательность имеет значение с точки зрения анализа (например, временной ряд).
- Со смещением - используется в ситуации, когда важные с точки зрения решаемой задачи данные представлены очень небольшим числом наблюдений, что не позволяет выполнить их достоверный анализ. В таких случаях применяется отбор со смещением – в выборку вносятся некоторые смещения значений признаков, делающих её более репрезентативной. Например, изменяется баланс классов или значениям признаков устанавливаются некоторые веса.