Метрика TF-IDF (Term frequency–inverse document frequency) Скачать в PDF

Разделы: Метрики

TF-IDF — статистический показатель, применяемый для оценки важности слова в контексте категории, документа или коллекции документов. Используется при анализе текстовых данных.

Как правило, TF-IDF определяется для каждого слова. Чем выше значение данного показателя, тем значимее слово в контексте категории, документа, коллекции. При этом данный показатель также позволяет учесть и широкоупотребляемые слова, понизив их значимость в контексте объекта для анализа.

Формула для определения показателя имеет следующий вид:

$T F - I D F = T F * I D F$ ,

где $T F$ — частота слова в конкретной категории/документе/коллекции (в зависимости от того, какие данные анализируются), $I D F$ — обратная частота документа (популярность слова).

Частота слова в категории определяется по формуле:

$T F = \frac{n_{t}}{k \sum i = 1 n_{i}}$ ,

где $n_{t}$ количество отдельных слов в категории/документе/коллекции, $k \sum i = 1 n_{i}$ общее количество всех слов в категории/документе/коллекции.

Обратная частота документа (также часто называют инверсией частоты) определяется по формуле:

$I D F = l n (\frac{n_{c}}{m \sum j = 1 n_{j}})$ ,

где $n_{c}$ — количество категорий/документов/коллекций всего, $m \sum j = 1 n_{j}$ — количество категорий/документов/коллекций в которых содержится интересующее слово.

Первый компонент формулы для вычисления TF-IDF фактически всегда не меняется. Метод расчета инвариации частоты может различаться в зависимости от специфики задачи, объема данных для анализа, количества категорий. При этом основной смысл показателя остается без изменений и он позволяет снизить «вес» широкоупотребляемых слов.

При анализе текстовых данных метрику TF-IDF лучше всего рассчитывать после проведения процессов токенизации, а также лемматизации или стемминга.