Текст майнинг (Text Mining) Скачать в PDF
Синонимы: Text data mining, Text analytics, Интеллектуальный анализ текстов, Анализ текстов
Разделы: Бизнес-задачи
Text Mining — это технология получения информации из неструктурированных текстовых данных путем их преобразования в пригодный для дальнейшей работы набор структурированных данных, представленных в удобном для машинной обработки виде. То есть, посредством методов Text Mining пользователь может извлекать знания из огромных массива данных, лишенной «понятной» компьютеру структуры.
Text Mining обычно включает в себя процесс структурирования исходного текста с применением синтаксического анализа, использования некоторых лингвистических функций с последующей загрузкой в базу данных и интерпретацией результатов. Главной целью является превращение текста в структурированные данные, пригодные для анализа методами интеллектуального анализа данных.
Результаты анализа текста оцениваются с точки зрения некоторых критериев качества, включающих актуальность, новизну и интерес. Типичные задачи анализа текста включают:
- категоризацию,
- кластеризацию,
- извлечение концептов (сущностей),
- разработку таксономий,
- обобщение документов,
- моделирование отношений между сущностями,
- тематическое индексирование,
- поиск по ключевым словам,
- изучение частотных распределений слов,
- аннотирование и т.д.
Следует отметить, что в сфере аналитических технологий имеет место некоторая несогласованность терминологии в отношении понятия Text Mining. Некоторые источники переводят его как интеллектуальный анализ текста, по аналогии с Data Mining (интеллектуальный анализ данных), другие же ограничиваются просто «анализом текста».
Под анализом текста в настоящее время понимают набор лингвистических, статистических процедур и методов машинного обучения, которые моделируют и структурируют информационный контент текстовых источников для бизнес-аналитики и интеллектуального анализа данных. В последнее время термин «анализ текста» чаще используется в бизнес-среде, в то время как «интеллектуальный анализ текста» относится к ранним этапам применения технологии (1980-е годы).
Термин «анализ текста» также описывает реагирование на проблемы бизнеса, независимо или в сочетании с анализом данных. Действительно, 80% деловой информации поступает в неструктурированной форме, в основном в виде текста. Методы и процессы анализа текстов обнаруживают и представляют знания и бизнес-правила, которые оказываются «заблокированными» в текстовой форме, недоступной для автоматической обработки.
Процесс Text Mining обычно содержит следующие этапы:
- сбор и идентификация набора текстовых источников из Интернета, файлов документов, баз данных и т.д.;
- распознавание именованных объектов — это использование справочников или статистических методов для идентификации именованных текстовых объектов: людей, организаций, географических названий, товаров, брендов и т. д.
- устранение неоднозначностей — использование контекстных подсказок для интерпретации неоднозначных понятий (например, машина — это и транспортное средство, и компьютер, и механизм);
- распознавание объектов, идентифицированных по шаблону — номеров телефонов, адресов обычной и электронной почты, количества (с единицами измерения) можно распознать с помощью регулярного выражения или другого соответствия шаблону;
- кластеризация документов: идентификация наборов похожих текстовых документов;
- идентификация имен существительных и других терминов, относящихся к одному и тому же объекту (кореферентность).
- обнаружение фактов и событий, взаимосвязей между ними, выявление ассоциаций между сущностями;
- анализ настроений включает в себя распознавание субъективного аспекта и извлечение различных форм поведенческой информации: настроения, мнения, эмоций.
Технологии Text Mining в настоящее время широко применяется для решения различных задач в области бизнеса, научных исследований, государственного управления, разведки и безопасности.
О том, как автоматизировать процесс категоризации текстовых данных с помощью Loginom, можно узнать в статье.