Klusterianalyysi

klusteritulosten arviointi (tai ”validointi”) on yhtä vaikeaa kuin itse klusterointi. Suosittu lähestymistapoja liity ”sisäinen” arviointi, jossa klusterointi tiivistää yhteen laatupisteet, ”external” arviointi, jossa klusterointi on verrattuna olemassa olevaan ”ground truth” luokitus, ”manuaalinen” arviointi ihmisen asiantuntija, ja ”välillinen” arviointi arvioimalla hyödyllisyys klusterointi sen aiottuun käyttötarkoitukseen.,

sisäiset arviointitoimet kärsivät siitä ongelmasta, että ne edustavat toimintoja, joita itseään voidaan pitää ryhmittelytavoitteena. Esimerkiksi yksi voisi klusterin tiedot asettamat Siluetti kerroin, paitsi että siellä ei tunneta tehokasta algoritmia tämä. Käyttämällä tällaista sisäistä toimenpidettä arvioinnissa verrataan pikemminkin optimointiongelmien samankaltaisuutta, eikä välttämättä sitä, kuinka hyödyllinen klusterointi on.,

Ulkoinen arviointi on samanlaisia ongelmia: jos meillä on tällainen ”ground truth” tarrat, niin meidän ei tarvitsisi klusterin, ja käytännön sovelluksia, me yleensä ei ole tällaisia merkintöjä. Toisaalta merkinnät heijastavat vain yhtä mahdollista tietokokonaisuuden jakamista, mikä ei tarkoita sitä, ettei olisi olemassa erilaista ja ehkä jopa parempaa ryhmittelyä.

kumpikaan näistä lähestymistavoista ei näin ollen voi viime kädessä arvioida klusterin todellista laatua, mutta tämä edellyttää inhimillistä arviointia, joka on hyvin subjektiivista., Tällaiset tilastot voivat kuitenkin olla varsin informatiivisia huonon painostuksen tunnistamisessa, mutta subjektiivista inhimillistä arviointia ei pidä hylätä.

Sisäinen evaluationEdit

Katso myös: Määritetään määrä klustereita data set

Kun klusterointi tulos arvioidaan tietojen perusteella, jotka oli ryhmitelty itse, tämä on nimeltään sisäinen arviointi. Nämä menetelmät yleensä antaa parhaat pisteet algoritmi, joka tuottaa klustereita, joilla on korkea samankaltaisuus sisällä klusterin ja vähäinen samankaltaisuus klustereita., Yksi haittapuoli käyttäen sisäisiä kriteerejä klusterin arvio on, että huipputuloksia sisäinen toimenpide ei välttämättä johda tehokkaan tiedonhaun sovelluksia. Lisäksi tämä arviointi on puolueellinen algoritmeja, jotka käyttävät samaa klusterimallia. Esimerkiksi k-means klusterointi luonnollisesti optimoi kohteen matkoja, ja etäisyys perustuva sisäinen kriteeri todennäköisesti yliarvioida jolloin klusterointi.,

näin Ollen, sisäinen arviointi-toimenpiteet ovat parhaiten saada jonkinlaisen käsityksen tilanteita, joissa yksi algoritmi toimii paremmin kuin toinen, mutta tämä ei tarkoita, että yksi algoritmi tuottaa järkevämpiä tuloksia kuin toinen. Tällaisella indeksillä mitattu voimassaolo riippuu väitteestä, jonka mukaan tällainen rakenne on olemassa tietoryhmässä. Algoritmi on suunniteltu jonkinlainen malleja ei ole mahdollisuutta, jos aineisto sisältää radikaalisti eri joukko malleja, tai jos arviointi toimenpiteet radikaalisti eri kriteeriä., Esimerkiksi k-means clustering voi löytää vain kuperia klustereita, ja monet arviointiindeksit olettavat kuperia klustereita. Data asettaa ei-kupera klustereita ei käyttö k-means, eikä arvioinnin kriteeri, joka edellyttää, kuperuus, on ääni.

Enemmän kuin tusina sisäinen arviointi toimenpiteet olemassa, perustuu yleensä intuitioon, että kohteet samalla klusteri pitäisi olla enemmän samanlaisia kuin kohteita eri klustereita., seuraavan kaavan mukaan: D B = 1 n ∑ i = 1 n max j ≠ i ( σ i + σ j d ( c i , c j ) ) {\displaystyle DB={\frac {1}{n}}\sum _{i=1}^{n}\max _{j\neq i}\left({\frac {\sigma _{i}+\sigma _{j}}{d(c_{i},c_{j})}}\right)}, missä n on määrä klustereita, c i {\displaystyle c_{i}} on centroid-klusterin i {\displaystyle i} , σ i {\displaystyle \sigma _{i}} on keskimääräinen etäisyys kaikista elementtejä klusterin i {\displaystyle i} että centroid c i {\displaystyle c_{i}} ja d ( c i , c j ) {\displaystyle d(c_{i},c_{j})} on etäisyys centroids c i {\displaystyle c_{i}} ja c j {\displaystyle c_{j}} ., Koska algoritmeja, jotka tuottavat klustereita, joilla on alhainen intra-cluster etäisyydet (high intra-klusterin samankaltaisuus) ja korkea klusterien etäisyyksien (alhainen inter-klusterin samankaltaisuus) on alhainen Davies–Bouldin-indeksi, klusterointi algoritmi, joka tuottaa kokoelma klustereita pienin Davies–Bouldin-indeksi pidetään paras algoritmi perustuu tämän kriteerin.

Dunn index

Dunn index pyrkii tunnistamaan tiheät ja hyvin erotetut klusterit. Se määritellään rykelmän välisen etäisyyden ja klusterin sisäisen enimmäisetäisyyden väliseksi suhteeksi., Kunkin klusterin osio, Dunn-indeksi voidaan laskea seuraavalla kaavalla: D = min 1 ≤ i < j ≤ n d ( i , j ) max 1 ≤ k ≤ n d ’ ( k ) , {\displaystyle D={\frac {\min _{1\leq i<j\leq n}d(i,j)}{\max _{1\leq k\leq n}d^{\prime }(k)}}\,,}, missä d(i,j) edustaa etäisyys klustereiden i ja j, ja k ’(k) mittaa sisäisen klusterin etäisyys klusterin k. Inter-klusterin etäisyys d(i,j) kahden klustereita voi olla mikä tahansa määrä, etäisyys toimenpiteitä, kuten välimatka centroids klustereita., Samoin sisäisen klusterin etäisyys d ’(k) voidaan mitata eri tavoin, kuten maksimaalinen etäisyys pari elementtejä klusterin k. Koska sisäinen kriteeri etsiä klustereita, joilla on korkea sisäinen klusterin samankaltaisuus ja alhainen inter-klusterin samankaltaisuus, algoritmeja, jotka tuottavat klustereita, joilla on korkea Dunn-indeksi on enemmän toivottavaa.

Siluetti kerroin

siluetti kerroin kontrasteja keskimääräinen etäisyys elementtejä samassa ryppäässä, jossa keskimääräinen etäisyys elementtejä muihin klustereihin., Objektit, joilla on korkea siluettiarvo, pidetään hyvin ryhmittyneinä, esineet, joilla on alhainen arvo, voivat olla poikkeavia. Tämä indeksi toimii hyvin k-tarkoittaa klusterointia, ja sitä käytetään myös määrittämään optimaalinen määrä klustereita.

Ulkoinen evaluationEdit

ulkoinen arviointi, klusterointi tulokset arvioidaan tietojen perusteella, että ei käytetty klusterointi, kuten tiedetään luokan tarroja ja ulkoisia vertailukohtia. Tällaiset vertailuarvot koostuvat joukosta ennalta luokiteltuja kohteita, ja nämä sarjat ovat usein (asiantuntija) ihmisten luomia., Näin ollen vertailukohtia voidaan pitää arvioinnin kultanormina. Tämäntyyppiset arviointimenetelmät mittaavat, kuinka lähellä ryhmittely on ennalta määrättyjä vertailuluokkia. Kuitenkin, se on viime aikoina keskusteltu, onko tämä riittävä todellisia tietoja, tai vain synteettisiä tietuekokonaisuudet, joissa on tosiasioihin maahan totuus, koska luokissa voi olla sisäinen rakenne, ominaisuudet läsnä välttämättä salli erottaminen klustereita tai luokat voivat sisältää poikkeavuuksia., Lisäksi tiedon löytämisen näkökulmasta, lisääntymiselle tunnettu tieto ei välttämättä ole tarkoitettu tulos. Erityinen skenaario rajoittaa klusterointi, jossa meta tiedot (kuten luokka tarrat) on käytetty jo klusterointi prosessi, hold-out tietoa arviointia varten on ei-triviaali.

useita toimenpiteitä ovat mukailtu variantteja käytetään arvioimaan luokituksen tehtäviä., Tilalle laskemalla, kuinka monta kertaa luokka oli oikein määritetty yksittäinen data point (tunnetaan tosi positiivisia), niin pari laskenta mittareita arvioida, onko kutakin paria tietojen pistettä, joka on todella samassa ryppäässä on ennustettu olevan samassa ryppäässä.

Kuten sisäinen arviointi, useita ulkoista arviointia koskevat toimenpiteet olemassa:125-129 esimerkiksi:

Puhtaus: Puhtaus on mitata, missä määrin klusterit sisältävät yhden luokan. Sen laskemista voidaan ajatella seuraavasti: Laske kunkin klusterin osalta kyseisen klusterin yleisimmän luokan datapisteiden määrä., Nyt ottaa summa yli kaikki klusterit ja jakaa kokonaismäärän datapisteitä. Virallisesti, koska jotkut joukko klustereita M {\displaystyle M} ja jotkut joukko luokkia D {\displaystyle D} , sekä osiointi N {\displaystyle N} data pistettä, puhtaus voidaan määritellä seuraavasti:

1 N ∑ m ∈ M max d ∈ D | m ∩ d | {\displaystyle {\frac {1}{N}}\sum _{m\in M}\max _{d\D}{|m\cap d|}} Tämä toimenpide ei rangaista ottaa monta klustereita, ja enemmän klustereita on helpompi tuottaa erittäin puhdasta. Puhtauspistemäärä 1 on aina mahdollinen laittamalla jokainen datapiste omaan klusteriinsa., Myös puhtaus ei toimi hyvin epätasapainoinen tiedot, jossa jopa tehottomat klusterointi algoritmit antaa korkean puhtaus arvo. Jos esimerkiksi koko 1000-aineisto koostuu kahdesta luokasta, joista toisessa on 999 pistettä ja toisessa 1 piste, jokaisen mahdollisen osion puhtaus on vähintään 99,9%.

Rand-indeksi

Rand-indeksi laskee, kuinka vastaavia klustereita (palautetaan klusterointi algoritmi) ovat vertailukohtana luokitukset., Se voidaan laskea käyttämällä seuraavaa kaavaa: R I = T S + T N T P + F P + F N + T N {\displaystyle RI={\frac {TP+TN}{TP+FP+FN+TN}}}, missä T P {\displaystyle TP} on määrä tosi positiivisia, T N {\displaystyle TN} on joukko totta, negatiivit, F P {\displaystyle FP} on määrä vääriä positiivisia, ja F N {\displaystyle FN} on määrä vääriä negatiivisia. Tässä laskettavat tapaukset ovat oikeiden pairwise-tehtävien määrä., Eli T P {\displaystyle TP} on määrä paria pistettä, jotka ovat ryhmittyneet yhdessä ennusti osio ja maahan totuus osio, F P {\displaystyle FP} on määrä paria pistettä, jotka ovat ryhmittyneet yhdessä ennusti osio, mutta ei maahan totuus osio jne. Jos aineisto on koko on N, niin T S + T N + F P + F-N = ( N 2 ) {\displaystyle TP+TN+FP+FN={\binom {N}{2}}} .

yksi asia Rand-indeksin kanssa on, että väärät positiiviset ja väärät negatiivit painotetaan yhtä paljon. Tämä voi olla ei-toivottu ominaisuus joillekin klusterointisovelluksille., F-toimenpide vastaa tähän huoleen samoin kuin sattuman korjaama korjattu Rand-indeksi.

F-mitta

F-mittaa voidaan käyttää tasapainottamaan osuus väärien negatiivisten vastausten painottamalla recall kautta parametri β ≥ 0 {\displaystyle \beta \geq 0} . Anna tarkkuus ja muistaa (sekä ulkoinen arviointi mittaa itse) määritellään seuraavasti: P = T P T P + F P {\displaystyle P={\frac {TP}{TP+FP}}} T = T P T P + F N {\displaystyle R={\frac {TP}{TP+FN}}}, jossa P {\displaystyle P} on tarkkuus korko ja T {\displaystyle R} on muistaa korko., Voimme laskea F-toimenpide käyttämällä seuraavaa kaavaa: F β = ( β 2 + 1 ) ⋅ P ⋅ T β 2 ⋅ P + R {\displaystyle F_{\beta }={\frac {(\beta ^{2}+1)\cdot P\cdot R}{\beta ^{2}\cdot P+R}}} Kun β = 0 {\displaystyle \beta =0} , F 0 = P {\displaystyle F_{0}=P} . Toisin sanoen, muistaa ei ole vaikutusta F-toimenpide, kun β = 0 {\displaystyle \beta =0} , ja lisäämällä β {\displaystyle \beta } kohdentaa yhä enemmän painoa muistaa lopullisessa F-toimenpide. Myöskään tn {\displaystyle tn} ei oteta huomioon, ja se voi vaihdella 0: sta ylöspäin ilman sidosta.,

Jaccard index

Jaccard-indeksiä käytetään kvantifioimaan kahden aineiston samankaltaisuutta. Jaccard-indeksin arvo on 0-1. Indeksi 1 tarkoittaa, että kaksi datajoukkoa ovat samat, ja indeksi 0 tarkoittaa, että tietoja ei ole yhteisiä tekijöitä. Se Jaccard-indeksi on määritelty seuraavan kaavan mukaan: J ( A , B ) = | A ∩ B | | A ∪ B | = T P T P + F P + F-N {\displaystyle J(A,B)={\frac {|A\cap B|}{|A\cup B|}}={\frac {TP}{TP+FP+FN}}} Tämä on yksinkertaisesti useita ainutlaatuisia yhteisiä tekijöitä sekä esitetään jaettuna kokonaismäärä ainutlaatuinen elementtejä molemmat., Myöskään tn {\displaystyle tn} ei oteta huomioon, ja se voi vaihdella 0: sta ylöspäin ilman sidosta.

Noppa-indeksi

Noppaa symmetrinen toimenpide tuplaa paino T P {\displaystyle TP} kun vielä huomioi T N {\displaystyle TN} : D S C = 2 T P 2, T P + F P + F-N {\displaystyle DSC={\frac {2TP}{2TP+FP+FN}}}

Fowlkes–Mallows-indeksi

Että Fowlkes–Mallows-indeksi laskee samankaltaisuus klustereita palautetaan klusterointi algoritmi ja benchmark luokitukset., Korkeampi arvo Fowlkes–Mallows-indeksi enemmän vastaavia klustereita ja benchmark luokitukset ovat. Se voidaan laskea käyttämällä seuraavaa kaavaa: F M = T P T P + F P ⋅ T P T P + F N {\displaystyle FM={\sqrt {{\frac {TP}{TP+FP}}\cdot {\frac {TP}{TP+FN}}}}}, missä T P {\displaystyle TP} on määrä tosi positiivisia, F P {\displaystyle FP} on määrä vääriä positiivisia, ja F N {\displaystyle FN} on määrä vääriä negatiivisia., F M {\displaystyle FM} – indeksi on geometrinen keskiarvo, tarkkuus ja muistaa, P {\displaystyle P} ja R {\displaystyle R} , ja on näin ollen myös nimellä G-toimenpide, kun taas F-toimenpide on niiden harmoninen keskiarvo. Lisäksi, tarkkuus ja muistaa tunnetaan myös Wallacen indeksit B I {\displaystyle B^{I}} ja B I I {\displaystyle B^{II}} . Mahdollisuus normalisoitu versiot muistaa, tarkkuus-ja G-mitta vastaa Informedness, Markedness ja Matthews Korrelaatio ja liittyvät vahvasti Kappa.,

keskinäinen tieto on tietoa, teoreettista mittaa, kuinka paljon tietoa on jaettu klusterointi ja maa-totuus luokitus, joka voi havaita ei-lineaarinen samankaltaisuus kaksi clusterings. Normalisoitu keskinäinen tieto on perheen korjattu-for-mahdollisuus muunnelmia tämän, joka on vähentänyt ennakkoluuloja eri klusterin numerot.
Sekavuus matrix

sekaannusta matriisi voidaan nopeasti visualisoida tulokset luokitus (tai klusterit) algoritmi. Se osoittaa, miten erilainen klusteri on kultaisesta standardiklusterista.,

Klusterin tendencyEdit

mitata klusterin taipumus on mitata, missä määrin klustereita olemassa tietoja voidaan aihekokonaisuuksien, ja voidaan suorittaa alustava testi, ennen kuin yrität klusterointi. Yksi tapa tehdä tämä on verrata tietoja satunnaisiin tietoihin. Keskimäärin satunnaistiedoissa ei pitäisi olla klustereita.

Hopkins tilasto

On olemassa useita muotoiluja Hopkinsin tilastotieto. Tyypillinen on seuraava. Olkoon X {\displaystyle X} on joukko n {\displaystyle n} tiedot kohtiin d {\displaystyle d} ulotteinen avaruus., Harkitse satunnaisotos (ilman vaihtoa) m ≪ n {\displaystyle m\ll n} data points-jäsenet x i {\displaystyle x_{i}} . Luo myös joukko Y {\displaystyle Y} M {\displaystyle m} tasaisesti satunnaisesti jakautuneita datapisteitä. Nyt määritellä kaksi etäisyys toimenpiteitä, u i {\displaystyle u_{en}} olla etäisyys y i ∈ Y {\displaystyle y_{i}\Y} sen lähin naapuri X ja w i {\displaystyle w_{en}} olla etäisyys x i ∈ X {\displaystyle x_{i}\in X} sen lähin naapuri X., Me sitten määritellä Hopkins tilastotietoa, kuten: H = ∑ i = 1 m u i d ∑ i = 1 m u i d + ∑ i = 1 m w i d , {\displaystyle S={\frac {\sum _{i=1}^{m}{u_{en}^{d}}}{\sum _{i=1}^{m}{u_{en}^{d}}+\sum _{i=1}^{m}{w_{en}^{d}}}}\,,} tämän määritelmän, yhtenäinen satunnainen data pitäisi yleensä on arvot lähellä 0,5, ja aihekokonaisuuksien tietoja pitäisi yleensä on arvot lähempänä 1., Kuitenkin, tiedot sisältävät vain yhden Gaussin myös pisteet lähellä 1, kuten tämä tilasto toimenpiteet poikkeama tasaisesta jakaumasta, ei multimodaalisuutta, joten tämä tilasto pitkälti hyödytön sovellus (kuten todellista tietoa ei ole koskaan etänä yhtenäinen).

Sisäinen evaluationEdit

Ulkoinen evaluationEdit

Klusterin tendencyEdit

Vastaa Peruuta vastaus