Метрика TF-IDF (Term frequency–inverse document frequency)

Разделы: Метрики

TF-IDF — статистический показатель, применяемый для оценки важности слова в контексте категории, документа или коллекции документов. Используется при анализе текстовых данных.

Как правило, TF-IDF определяется для каждого слова. Чем выше значение данного показателя, тем значимее слово в контексте категории, документа, коллекции. При этом данный показатель также позволяет учесть и широкоупотребляемые слова, понизив их значимость в контексте объекта для анализа.

Формула для определения показателя имеет следующий вид:

,

где — частота слова в конкретной категории/документе/коллекции (в зависимости от того, какие данные анализируются), — обратная частота документа (популярность слова).

Частота слова в категории определяется по формуле:

,

где количество отдельных слов в категории/документе/коллекции, общее количество всех слов в категории/документе/коллекции.

Обратная частота документа (также часто называют инверсией частоты) определяется по формуле:

,

где — количество категорий/документов/коллекций всего, — количество категорий/документов/коллекций в которых содержится интересующее слово.

Первый компонент формулы для вычисления TF-IDF фактически всегда не меняется. Метод расчёта инвариации частоты может различаться в зависимости от специфики задачи, объема данных для анализа, количества категорий. При этом основной смысл показателя остаётся без изменений и он позволяет снизить «вес» широкоупотребляемых слов.

При анализе текстовых данных метрику TF-IDF лучше всего рассчитывать после проведения процессов токенизации, а также лемматизации или стемминга.