Текст майнинг (Text Mining) Скачать в PDF

Синонимы: Text data mining, Text analytics, Интеллектуальный анализ текстов, Анализ текстов

Разделы: Бизнес-задачи

Text Mining — это технология получения информации из неструктурированных текстовых данных путем их преобразования в пригодный для дальнейшей работы набор структурированных данных, представленных в удобном для машинной обработки виде. То есть, посредством методов Text Mining пользователь может извлекать знания из огромных массива данных, лишенной «понятной» компьютеру структуры.

Text Mining обычно включает в себя процесс структурирования исходного текста с применением синтаксического анализа, использования некоторых лингвистических функций с последующей загрузкой в базу данных и интерпретацией результатов. Главной целью является превращение текста в структурированные данные, пригодные для анализа методами интеллектуального анализа данных.

Результаты анализа текста оцениваются с точки зрения некоторых критериев качества, включающих актуальность, новизну и интерес. Типичные задачи анализа текста включают:

  • категоризацию,
  • кластеризацию,
  • извлечение концептов (сущностей),
  • разработку таксономий,
  • обобщение документов,
  • моделирование отношений между сущностями,
  • тематическое индексирование,
  • поиск по ключевым словам,
  • изучение частотных распределений слов,
  • аннотирование и т.д.

Следует отметить, что в сфере аналитических технологий имеет место некоторая несогласованность терминологии в отношении понятия Text Mining. Некоторые источники переводят его как интеллектуальный анализ текста, по аналогии с Data Mining (интеллектуальный анализ данных), другие же ограничиваются просто «анализом текста».

Под анализом текста в настоящее время понимают набор лингвистических, статистических процедур и методов машинного обучения, которые моделируют и структурируют информационный контент текстовых источников для бизнес-аналитики и интеллектуального анализа данных. В последнее время термин «анализ текста» чаще используется в бизнес-среде, в то время как «интеллектуальный анализ текста» относится к ранним этапам применения технологии (1980-е годы).

Термин «анализ текста» также описывает реагирование на проблемы бизнеса, независимо или в сочетании с анализом данных. Действительно, 80% деловой информации поступает в неструктурированной форме, в основном в виде текста. Методы и процессы анализа текстов обнаруживают и представляют знания и бизнес-правила, которые оказываются «заблокированными» в текстовой форме, недоступной для автоматической обработки.

Процесс Text Mining обычно содержит следующие этапы:

  • сбор и идентификация набора текстовых источников из Интернета, файлов документов, баз данных и т.д.;
  • распознавание именованных объектов — это использование справочников или статистических методов для идентификации именованных текстовых объектов: людей, организаций, географических названий, товаров, брендов и т. д.
  • устранение неоднозначностей — использование контекстных подсказок для интерпретации неоднозначных понятий (например, машина — это и транспортное средство, и компьютер, и механизм);
  • распознавание объектов, идентифицированных по шаблону — номеров телефонов, адресов обычной и электронной почты, количества (с единицами измерения) можно распознать с помощью регулярного выражения или другого соответствия шаблону;
  • кластеризация документов: идентификация наборов похожих текстовых документов;
  • идентификация имен существительных и других терминов, относящихся к одному и тому же объекту (кореферентность).
  • обнаружение фактов и событий, взаимосвязей между ними, выявление ассоциаций между сущностями;
  • анализ настроений включает в себя распознавание субъективного аспекта и извлечение различных форм поведенческой информации: настроения, мнения, эмоций.

Технологии Text Mining в настоящее время широко применяется для решения различных задач в области бизнеса, научных исследований, государственного управления, разведки и безопасности.

О том, как автоматизировать процесс категоризации текстовых данных с помощью Loginom, можно узнать в статье.