Большие данные (Big data)

Данный термин употребляется по отношению к таким огромным массивам данных, обработка которых традиционными методами не эффективна. Основными характеристиками Big Data являются следующие 3 свойства (правила трех V):

  • Объем (volume). Благодаря снижению затрат на хранение информации, в компаниях накапливаются данные из множества источников в громадном количестве.
  • Скорость роста (velocity). В компаниях, связанных, например, с электронной коммерцией, каждый час могут приходить десятки гигабайт новых данных.
  • Многообразие (variety). Данные из входного потока могут быть разнообразных форматов (таблицы, текст, видео, аудио и пр.), структурированные и неструктурированные.

По прошествии времени появились интерпретации с «четырьмя V» (veracity — достоверность), «пятью V» (viability — жизнеспособность и value — ценность), и «семью V» (variability — переменчивость и visualization — визуализация).

Главные трудности, с которыми приходится бороться при обработке больших данных, связаны с ограничениями алгоритмов по времени и памяти. Отсюда вытекают задачи оптимизации размещения данных в оперативной памяти, количества обращений к диску, количества проходов по данным.

Если обработка данных невозможна на одном компьютере, то её алгоритм можно разделить на части и попытаться выполнить на нескольких машинах. Эта идея послужила толчком для появления и развития методологий и инструментов распределенной обработки, например, MapReduce, HDFS, Hive.

Вероятностные модификации алгоритмов применяются для значительного снижения количества итераций и/или проходов по набору данных при интеллектуальном анализе. Примером такого алгоритма является оптимальное зависимое от данных хеширование для приближенного поиска ближайших соседей.

С большими данными сталкиваются во многих сферах: науке, электронной коммерции, телекоммуникациях, финансовом секторе. Кроме того, для решения бизнес-задач можно привлекать данные из сторонних источников.

Например, информация о пользовательской активности, связях и интересах из социальных сетей может использоваться для обогащения данных при персонализации маркетинговых предложений или при прогнозе платёжеспособности заемщика в скоринге.

results matching ""

    No results matching ""