la evaluación (o «validación») de los resultados de la agrupación es tan difícil como la agrupación en sí. Los enfoques populares incluyen la evaluación «interna», donde la agrupación se resume en una sola puntuación de calidad, la evaluación» externa», donde la agrupación se compara con una clasificación existente de» verdad de base», la evaluación» manual «por un experto humano, y la evaluación» indirecta » mediante la evaluación de la utilidad de la agrupación en su aplicación prevista.,
Las medidas de evaluación interna adolecen del problema de que representan funciones que a su vez pueden considerarse un objetivo de agrupación. Por ejemplo, se podría agrupar el conjunto de datos por el coeficiente de Silueta; excepto que no hay un algoritmo eficiente conocido para esto. Mediante el uso de una medida interna para la evaluación, se compara más bien la similitud de los problemas de optimización, y no necesariamente cuán útil es el agrupamiento.,
la evaluación externa tiene problemas similares: si tenemos tales etiquetas «ground truth», entonces no necesitaríamos agrupar; y en aplicaciones prácticas generalmente no tenemos tales etiquetas. Por otro lado, las etiquetas solo reflejan una posible partición del conjunto de datos, lo que no implica que no exista una agrupación diferente, y tal vez incluso mejor.
Por lo tanto, ninguno de estos enfoques puede juzgar en última instancia la calidad real de una agrupación, pero esto necesita una evaluación humana, que es altamente subjetiva., Sin embargo, tales estadísticas pueden ser bastante informativas para identificar los malos agrupamientos, pero uno no debe descartar la evaluación humana subjetiva.
evaluación Internaeditar
Cuando se evalúa un resultado de clústeres en función de los datos que se agruparon en sí, esto se denomina evaluación interna. Estos métodos generalmente asignan la mejor puntuación al algoritmo que produce clústeres con alta similitud dentro de un clúster y baja similitud entre clústeres., Un inconveniente del uso de criterios internos en la evaluación de clústeres es que las puntuaciones altas en una medida interna no necesariamente resultan en aplicaciones efectivas de recuperación de información. Además, esta evaluación está sesgada hacia algoritmos que utilizan el mismo modelo de clúster. Por ejemplo, K-means clustering optimiza naturalmente las distancias de los objetos, y un criterio interno basado en la distancia probablemente sobreestimará la agrupación resultante.,
Por lo tanto, las medidas de evaluación interna son las más adecuadas para obtener información sobre situaciones en las que un algoritmo funciona mejor que otro, pero esto no implica que un algoritmo produzca resultados más válidos que otro. La validez medida por dicho índice depende de la afirmación de que este tipo de estructura existe en el conjunto de datos. Un algoritmo diseñado para algún tipo de modelos no tiene ninguna posibilidad si el conjunto de Datos contiene un conjunto radicalmente diferente de modelos, o si la evaluación mide un criterio radicalmente diferente., Por ejemplo, K-means clustering solo puede encontrar clústeres convexos, y muchos índices de evaluación asumen clústeres convexos. En un conjunto de datos con grupos no convexos, ni el uso de k-medias, ni de un criterio de evaluación que asume la convexidad, es sólido.
Existen más de una docena de medidas de evaluación interna, generalmente basadas en la intuición de que los ítems en el mismo cluster deben ser más similares que los ítems en clusters diferentes., siguiente fórmula: D B = 1 n ∑ i = 1 n max j ≠ i ( σ i + σ j d ( c i , c j ) ) {\displaystyle DB={\frac {1}{n}}\sum _{i=1}^{n}\max _{j\neq i}\left({\frac {\sigma _{i}+\sigma _{j}}{d(c_{i},c_{j})}}\right)}, donde n es el número de clusters, c i {\displaystyle c_{i}} es el centroide del cluster i {\displaystyle i} , σ i {\displaystyle \sigma _{i}} es la distancia media de todos los elementos en el grupo i {\displaystyle i} para centroide c i {\displaystyle c_{i}} y d ( c i , c j ) {\displaystyle d(c_{i},c_{j})} es la distancia entre los centroides c i {\displaystyle c_{i}} y c j {\displaystyle c_{j}} ., Dado que los algoritmos que producen clústeres con bajas distancias dentro del clúster (alta similitud dentro del clúster) y altas distancias entre clústeres (baja similitud entre clústeres) tendrán un índice de Davies-Bouldin bajo, el algoritmo de clústeres que produce una colección de clústeres con el índice de Davies-Bouldin más pequeño se considera el mejor algoritmo basado en este criterio.
- Índice Dunn
El índice Dunn tiene como objetivo identificar grupos densos y bien separados. Se define como la relación entre la distancia mínima entre el clúster y la distancia máxima dentro del clúster., Para cada partición de clúster, el índice de Dunn se puede calcular mediante la siguiente fórmula: D = min 1 ≤ i < j ≤ N D ( I , j ) max 1 ≤ k ≤ n d ‘ ( k ) , {\displaystyle d={\frac {\min _{1\leq i<j\LEQ n}d(I,j)}{\max _{1\LEQ K\LEQ n}d^{\Prime }(k)}}\,,} donde d(i,j) representa la distancia entre los clústeres I y j, y D ‘(K) mide la distancia dentro del cluster k. la distancia entre clústeres d(i,j) entre dos clústeres puede ser cualquier número de medidas de distancia, como la distancia entre los centroides de los clústeres., De manera similar, la distancia intra-cluster d ‘(k) puede medirse de varias maneras, como la distancia máxima entre cualquier par de elementos en el cluster k. dado que el criterio interno busca clústeres con alta similitud intra-cluster y baja similitud entre clústeres, los algoritmos que producen clústeres con alto índice de Dunn son más deseables.
- coeficiente de Silueta
El coeficiente de silueta contrasta la distancia media a los elementos del mismo grupo con la distancia media a los elementos de otros grupos., Los objetos con un valor de silueta alto se consideran bien agrupados, los objetos con un valor bajo pueden ser valores atípicos. Este índice funciona bien con k-means clustering, y también se utiliza para determinar el número óptimo de clústeres.
evaluación Externaeditar
en la evaluación externa, los resultados de la agrupación se evalúan en función de datos que no se utilizaron para la agrupación, como las etiquetas de clase conocidas y los parámetros externos. Tales puntos de referencia consisten en un conjunto de elementos preclasificados, y estos conjuntos son a menudo creados por humanos (expertos)., Por lo tanto, los conjuntos de puntos de referencia pueden considerarse como un estándar de oro para la evaluación. Estos tipos de métodos de evaluación miden qué tan cerca está la agrupación de las clases de referencia predeterminadas. Sin embargo, recientemente se ha discutido si esto es adecuado para datos reales, o solo en conjuntos de datos sintéticos con una verdad de base fáctica, ya que las clases pueden contener estructura interna, los atributos presentes pueden no permitir la separación de clústeres o las clases pueden contener anomalías., Además, desde el punto de vista del descubrimiento del conocimiento, la reproducción del conocimiento conocido puede no ser necesariamente el resultado deseado. En el escenario especial de clustering restringido, donde la meta información (como las etiquetas de clase) ya se usa en el proceso de clustering, la retención de información para fines de evaluación no es trivial.
una serie de medidas se adaptan a partir de las variantes utilizadas para evaluar las tareas de clasificación., En lugar de contar el número de veces que una clase se asignó correctamente a un solo punto de datos (conocidos como verdaderos positivos), dichas métricas de conteo de pares evalúan si se predice que cada par de puntos de datos que está realmente en el mismo clúster estará en el mismo clúster.
al igual que con la evaluación interna, existen varias medidas de evaluación externa,:125-129 por ejemplo:
- pureza: la pureza es una medida de la medida en que los racimos contienen una sola clase. Su cálculo se puede pensar de la siguiente manera: para cada clúster, cuente el número de puntos de datos de la clase más común en dicho clúster., Ahora tome la suma sobre todos los clústeres y divida por el número total de puntos de datos. Formalmente , dado algún conjunto de clústeres M {\displaystyle M} Y algún conjunto de Clases D {\displaystyle D}, ambos particionando n {\displaystyle N} puntos de datos, la pureza se puede definir como:
1 n ∑ m ∈ m max D ∈ D | m d d | {\displaystyle {\frac {1}{N}}\sum _{m\in m}\max _{d\in D}{|m\cap d|}} esta medida no penaliza tener muchos clústeres, y más clústeres harán que sea más fácil producir una alta pureza. Una puntuación de pureza de 1 siempre es posible colocando cada punto de datos en su propio clúster., Además, la pureza no funciona bien para datos desequilibrados, donde incluso los Algoritmos de agrupamiento de bajo rendimiento darán un alto valor de pureza. Por ejemplo, si un conjunto de datos de tamaño 1000 consta de dos clases, una que contiene 999 puntos y la otra que contiene 1 punto, entonces cada partición posible tendrá una pureza de al menos 99.9%.
- Índice Rand
el índice Rand calcula qué tan similares son los clústeres (devueltos por el algoritmo de clústeres) a las clasificaciones de referencia., Puede calcularse mediante la siguiente fórmula: R I = T P + T N T P + F P + F N + T N {\displaystyle RI={\frac {TP+TN}{TP+FP+FN+TN}}} donde T P {\displaystyle TP} es el número de verdaderos positivos, T N {\displaystyle TN} es el número de verdaderos negativos, F P {\displaystyle FP} es el número de falsos positivos, y F N {\displaystyle FN} es el número de falsos negativos. Las instancias que se cuentan aquí son el número de asignaciones de pares correctas., Es decir, T p {\displaystyle TP} es el número de pares de puntos que se agrupan juntos en la partición predicha y en la partición de verdad de tierra, F p {\displaystyle FP} es el número de pares de puntos que se agrupan juntos en la partición predicha pero no en la partición de verdad de tierra, etc. Si el conjunto de datos es de tamaño N, entonces T P + T N + F P + F N = ( N 2 ) {\displaystyle TP+TN+FP+FN={\binom {N}{2}}} .
un problema con el índice Rand es que los falsos positivos y los falsos negativos están igualmente ponderados. Esta puede ser una característica indeseable para algunas aplicaciones de clústeres., La medida F aborda esta preocupación, al igual que el índice Rand AJUSTADO corregido por el azar.
- F-measure
la f-measure se puede utilizar para equilibrar la contribución de falsos negativos mediante la ponderación del recuerdo a través de un parámetro β ≥ 0 {\displaystyle \beta \geq 0} . La precisión y la recuperación (ambas medidas de evaluación externa en sí mismas) se definen de la siguiente manera: P = T P T P + F p {\displaystyle P={\frac {TP}{TP+FP}}} R = T P T P + F N {\displaystyle R={\frac {TP}{TP+FN}}} donde P {\displaystyle P} es la tasa de precisión y R {\displaystyle R} es la tasa de recuperación., Podemos calcular la F-medida mediante la siguiente fórmula: F β = ( β 2 + 1 ) ⋅ P ⋅ R β 2 ⋅ P + R {\displaystyle F_{\beta }={\frac {(\beta ^{2}+1)\cdot P\cdot R}{\beta ^{2}\cdot P+R}}} Cuando β = 0 {\displaystyle \beta =0} , F 0 = P {\displaystyle F_{0}=P} . En otras palabras, el recuerdo no tiene impacto en la medida F cuando β = 0 {\displaystyle \beta =0} , y el aumento de β {\displaystyle \ beta } asigna una cantidad creciente de peso para recordar en la medida F final. También T n {\displaystyle TN} no se tiene en cuenta y puede variar de 0 hacia arriba sin límite.,
- Índice Jaccard
El índice Jaccard se utiliza para cuantificar la similitud entre dos conjuntos de datos. El índice Jaccard toma un valor entre 0 y 1. Un índice de 1 significa que los dos conjuntos de datos son idénticos, y un índice de 0 indica que los conjuntos de datos no tienen elementos comunes. El índice de Jaccard se define por la siguiente fórmula: J ( a , B ) = | A ∩ B | | A ∪ B | = T P T P + F P + F N {\displaystyle J(a,B)={\frac {|A\cap B|}{|A\cup B|}}={\frac {TP}{TP+FP+FN}}} Esto es simplemente el número de elementos comunes a ambos conjuntos dividido por el número total de elementos únicos en ambos conjuntos., También T n {\displaystyle TN} no se tiene en cuenta y puede variar de 0 hacia arriba sin límite.
- Índice de dados
La medida simétrica de dados duplica el peso en T p {\displaystyle TP} mientras sigue ignorando T N {\displaystyle TN} : D S C = 2 T P 2 T P + F P + F N {\displaystyle DSC={\frac {2TP}{2TP+FP+FN}}}
- Índice de Fowlkes–Mallows
el índice de Fowlkes–Mallows calcula la similitud entre los clústeres devueltos por el algoritmo de clustering y las clasificaciones de Benchmark., Cuanto mayor es el valor del índice de Fowlkes–Mallows, más similares son los clústeres y las clasificaciones de referencia. Puede calcularse mediante la siguiente fórmula: F M = T P T P + F P ⋅ T P T P + F N {\displaystyle FM={\sqrt {{\frac {TP}{TP+FP}}\cdot {\frac {TP}{TP+FN}}}}} donde T P {\displaystyle TP} es el número de verdaderos positivos, F P {\displaystyle FP} es el número de falsos positivos, y F N {\displaystyle FN} es el número de falsos negativos., El índice F m {\displaystyle FM} es la media geométrica de la precisión y memoria P {\displaystyle P} y R {\displaystyle R}, y por lo tanto también se conoce como la medida G, mientras que la medida F es su media armónica. Además, la precisión y el recuerdo también se conocen como índices de Wallace B i {\displaystyle B^{I}} y B I I {\displaystyle B^{II}} . Las versiones normalizadas casuales de recuerdo, precisión y medida G corresponden a la Información, La marcación y la correlación de Matthews y se relacionan fuertemente con Kappa.,
- La información mutua es una medida teórica de la información de cuánta información se comparte entre un agrupamiento y una clasificación de verdad de base que puede detectar una similitud no lineal entre dos agrupamientos. La información mutua normalizada es una familia de variantes corregidas para el azar de esto que tiene un sesgo reducido para los números variables del racimo.
- matriz de confusión
Se puede utilizar una matriz de confusión para visualizar rápidamente los resultados de un algoritmo de clasificación (o agrupación). Muestra qué tan diferente es un clúster del clúster estándar de oro.,
Cluster tendencyEdit
medir la tendencia del clúster es medir en qué grado existen clústeres en los datos que se agruparán, y puede realizarse como una prueba inicial, antes de intentar agruparse. Una forma de hacer esto es comparar los datos con datos aleatorios. En promedio, los datos aleatorios no deben tener clústeres.
- estadística de Hopkins
existen múltiples formulaciones de la estadística de Hopkins. Una típica es la siguiente. Sea X {\displaystyle X} el conjunto de n {\displaystyle N} puntos de datos en D {\displaystyle D} espacio dimensional., Considere una muestra aleatoria (sin reemplazo) de m n n {\displaystyle m\ll n} puntos de datos con miembros x i {\displaystyle x_{i}} . También genera un conjunto y {\displaystyle Y} DE m {\displaystyle M} puntos de datos uniformemente distribuidos aleatoriamente. Ahora defina dos medidas de distancia, u i {\displaystyle u_ {i}} para ser la distancia de y I ∈ y {\displaystyle y_{i}\in y} desde su vecino más cercano en X Y w i {\displaystyle w_{i}} para ser la distancia de x i ∈ X {\displaystyle x_{i}\in X} desde su vecino más cercano en X., A continuación definimos la Hopkins estadística como: H = ∑ i = 1 m u i d ∑ i = 1 m u i d + ∑ i = 1 m w i d , {\displaystyle H={\frac {\sum _{i=1}^{m}{u_{i}^{d}}}{\sum _{i=1}^{m}{u_{i}^{d}}+\sum _{i=1}^{m}{w_{i}^{d}}}}\,,} Con esta definición, aleatorio uniforme de datos debe tienden a tener valores cercanos a 0,5, y agrupado los datos deben tienden a tener valores más cercanos a 1., Sin embargo, los datos que contienen un solo gaussiano también obtendrán una puntuación cercana a 1, ya que esta estadística mide la desviación de una distribución uniforme, no multimodalidad, lo que hace que esta estadística sea en gran medida inútil en la aplicación (ya que los datos reales nunca son remotamente uniformes).