Коэффициент силуэта кластера (Cluster silhouette index) Скачать в PDF

Синонимы: Индекс силуэта, Коэффициент силуэта, Silhouette index, Silhouette coefficient

Разделы: Метрики

Коэффициент силуэта в кластеризации — это величина, которая позволяет оценить степень соответствия построенной кластерной структуры обучающим данным, т.е. оценить качество кластеризации. Иными словами, коэффициент силуэта показывает, насколько каждый объект «похож» на другие объекты в том кластере, в который он был распределен в процессе кластеризации, и «не похож» на объекты из других кластеров. Метод был предложен бельгийским статистиком Питером Руссо в 1987 году.

В основе идеи метода лежит вычисление коэффициентов, которые присваиваются каждому объекту в кластере и образуют так называемый силуэт кластера. Коэффициенты изменяются от -1 до 1. Значения, близкие к 1, указывают на то, что объект является похожим на другие объекты в кластере и не похожим на объекты из других кластеров. Если большинство объектов имеют значения коэффициентов близкими к 1, можно утверждать, что кластерная структура хорошо выражена, и количество кластеров соответствует естественной группировке данных.

Напротив, если в силуэте кластера много низких и отрицательных значений, это говорит о том, что кластерная структура плохо соответствует естественным группам данных, т.е. кластеров слишком много или слишком мало.

Предположим, что набор данных кластеризован с помощью некоторого алгоритма (например, k-средних) на $N$ кластеров. Тогда для каждого $i$ -го наблюдения из кластера $C_{I}$ можно вычислить среднее расстояние между $i$ -м и остальными объектами кластера:

$a_{i} = \frac{1}{| C_{I} | - 1} \sum j \in C_{I}, i \neq j d (i, j)$ ,

где $| C_{I} |$ — мощность $I$ -го кластера (т.е. число попавших в него объектов), $d (i, j)$ — расстояние между объектами $i$ и $j$ кластера $I$ . Усреднение производится по $| C_{I} | - 1$ объектам, поскольку расстояние $d (i, i)$ учитывать смысла нет.

Можно интерпретировать $a_{i}$ как меру того, с какой степенью уверенности объект $i$ может быть отнесен к кластеру, т.е. насколько он «похож» на остальные объекты этого же кластера.

Затем определяется среднее расстояние от объекта $i$ кластера $C_{I}$ до объектов некоторого другого кластера $C_{J}$ ( $C_{J} \neq C_{I}$ ).

Для каждого наблюдения $i$ из $C_{I}$ можно определить:

$b_{i} = m i n I \neq J \frac{1}{| C_{J} |} \sum j \in C_{J} d (i, j)$ ,

где $j \in C {J}$ — объект, содержащийся в любом кластере $C {J}$ , отличном от $C {I}$ .

Это будет наименьшим средним расстоянием от $i$ до всех точек в любом другом кластере, который не содержит $i$ . Кластер с наименьшим $b_{i}$ называют соседним для $i$ поскольку он является следующим предпочтительным кластером для этого объекта.

Теперь определим значение коэффициента силуэта $s_{i}$ для отдельного объекта $i$ :

$s_{i} = \frac{b_{i} - a_{i}}{m a x (a_{i}, b_{i})}$ ,

при условии, что $| C_{I} | > 1$ .

В то же время $s_{i} = 0$ , если $| C_{I} | = 1$ .

По определению $- 1 \leq s_{i} \leq 1$ . Однако существует неопределенность для кластеров, содержащих единственный объект. Хотя это выбор формальный, но тем не менее укладывается в исходные условия, поскольку 0 находится внутри диапазона изменения коэффициента силуэта.

Для того, чтобы $s_{i}$ было близким к 1, требуется, чтобы $a_{i} << b_{i}$ . Поскольку $a_{i}$ является мерой «непохожести» объекта $i$ внутри собственного кластера, его малое значение указывает на хорошее соответствие объекта кластеру. В то же время, большое значение $b_{i}$ говорит о том, что объект $i$ плохо соответствует соседним кластерам.

Таким образом, $s_{i}$ близкое к 1 означает, что данные кластеризованы хорошо, т.е. объекты «похожи» друг на друга внутри кластеров, и не похожи на объекты соседних кластеров (в среднем, внутрикластерные расстояния меньше междукластерных).

Если $s_{i}$ близок к -1, то в соответствии с той же логикой, можно предположить, что объект $i$ более подходит к соседним кластерам, чем к тому, в который он был распределен при кластеризации. Значение $s_{i}$ близкое к 0 говорит о том, что объект расположен вблизи границы кластеров и высокой уверенности в его принадлежности нет.

Вычислив $s_{i}$ для всех наблюдений в кластере, можно увидеть насколько плотно они сгруппированы вокруг его центра. А рассчитав среднее значение $s_{i}$ по всем кластерам, можно сделать вывод, о том, насколько сформированная кластерная структура соответствует естественной группировке данных.

Если кластеров больше или меньше, чем естественных групп данных, то силуэты некоторых кластеров будут значительно «уже», чем остальных. Для более наглядного представления этого используют специальные визуализаторы — кластерные силуэты, которые позволяют оперативно оценивать качество кластеризации и интерпретировать кластерную структуру.

Узнать подробнее о задаче кластеризации в машинном обучении, алгоритме k-means и его ограничениях, познакомиться с методом локтя для выбора числа кластеров, кластерными силуэтами и индексом силуэта можно в рамках воркшопа «K-means и кластерные силуэты».