Сэмплинг (Sampling)

Разделы: Бизнес-задачи, Алгоритмы

Loginom: Сэмплинг (обработчик)

Процесс отбора из исходной совокупности данных выборки, представляющей интерес для анализа. При реализации сэмплинга используются специальные методы отбора, которые должны обеспечить ее репрезентативность с точки зрения решаемой аналитической задачи.

На практике в бизнес-аналитике применяется подход, когда для анализа из исходного набора данных формируется новое. Это обусловлено различными обстоятельствами, в том числе:

  • Снижение трудоемкости алгоритмов Data Mining. При анализе сравнительно небольшого подмножества данных временные и вычислительных затраты значительно сокращаются.
  • Коррекция распределений значений переменных в выборке. В некоторых случаях исходное распределение значений факторов в имеющимся наборе данных может негативно сказываться на процессе обучения модели. Типичный пример – несбалансированность классов в задаче кредитного скоринга. Коррекция распределений может заключаться, например, в увеличении числа объектов с требуемыми характеристиками (oversampling), в сокращении избыточных примеров (undersampling).

Различают следующие виды сэмплинга:

  • Случайный: выборка производится случайным образом из всей совокупности.
  • Равномерный: все записи исходной совокупности разделяются на группы, в каждой из которых содержится одинаковое число записей. Затем из каждой группы случайным образом выбирается одна запись и помещается в результирующую выборку. Выборка, полученная в результате сэмплинга, будет состоять из записей, случайным образом отобранных из каждой группы.
  • Стратификационный (если исходная совокупность существенно неоднородна, случайный сэмплинг работает плохо и лучших результатов удается добиться, если производить выборку каждой группы, независимо от других групп). Выполняется в два этапа:
    1. Стратификация – группировка элементов исходной совокупности в относительно однородные подгруппы, которые называются стратами или слоями.
    2. Случайный сэмплинг – случайная выборка из каждого слоя по отдельности.
  • Последовательный: выборка производится последовательным образом из всей совокупности, пока не будет достигнут требуемый объем.
  • Отбор со смещением: иногда исследователи сталкиваются с ситуацией, когда важные с точки зрения решаемой задачи объекты или события представлены очень небольшим числом наблюдений, что не позволяет выполнить их достоверный анализ. В таких случаях применяется Отбор со смещением – «перевзвешивание» примеров, или изменение соотношения принадлежности записей к классам.

results matching ""

    No results matching ""