Текст майнинг (Text Mining)

Синонимы: Извлечение информации из неструктурированных текстов, Текстовая добыча

Разделы: Бизнес-задачи

Частный случай Data mining для текстовой информации. Основной целью интеллектуального анализа текстов является превращение неструктурированных текстовых данных в пригодный для дальнейшей работы набор структурированных данных в удобном для машинной обработки виде. То есть, посредством методов Text mining пользователь может извлекать знания из огромного массива информации, лишенной понятной компьютеру структуры.

Направление основывается на классических методах интеллектуального анализа данных, таких как кластеризация, классификация. Однако, Text Mining обладает также собственными методами анализа текстов:

  • извлечение феноменов/понятий (feature (information) extraction),
  • ответ на запросы (question answering)
  • тематическое индексирование (thematic indexing)
  • поиск по ключевым словам (keyword searching).

Процесс анализа текстовых документов можно представить как последовательность нескольких шагов:

  1. Поиск информации. В первую очередь необходимо понять, какие документы нужно подвергнуть анализу плюс обеспечить доступ. Пользователи могут определить набор анализируемых документов самостоятельно — вручную.
  2. Предварительная обработка документов. Выполняются необходимые преобразования с документами для представления их в нужном виде. Удаление лишних слов и придание тексту более строгой формы.
  3. Извлечение информации. Выделение ключевых понятий для анализа.
  4. Применение методов Text Mining. Извлекаются шаблоны и отношения, имеющиеся в текстах.
  5. Интерпретация результатов. Представлении результатов на естественном языке, или в их визуализации в графическом виде.

results matching ""

    No results matching ""