A klaszterezési eredmények értékelése (vagy “érvényesítése”) ugyanolyan nehéz, mint maga a klaszterezés. Népszerű megközelítés magában a “belső” értékelést, ahol a klaszter foglalja össze, hogy egy egységes minőségi mutató, a “külső” értékelést, ahol a klaszter, mint egy már meglévő “földi igazság” – besorolás, “kézi” értékelést egy emberi szakértő, valamint a “közvetett” értékelő értékeli a segédprogram a fürtözés a tervezett alkalmazás.,
a belső értékelési intézkedések szenvednek attól a problémától, hogy olyan funkciókat képviselnek, amelyek maguk is klaszterezési célnak tekinthetők. Például az adatokat a sziluett-együtthatóval lehet klaszterezni; azzal a különbséggel, hogy ehhez nincs ismert hatékony algoritmus. Ha egy ilyen belső mérést használunk az értékeléshez, akkor inkább összehasonlítjuk az optimalizálási problémák hasonlóságát, nem feltétlenül pedig azt, hogy mennyire hasznos a klaszterezés.,
a külső értékelésnek hasonló problémái vannak: ha ilyen “földi igazság” címkékkel rendelkezünk, akkor nem kellene klasztereznünk; a gyakorlati alkalmazásokban általában nincs ilyen címke. Másrészt a címkék csak az adatkészlet egy lehetséges felosztását tükrözik, ami nem jelenti azt, hogy nem létezik más, talán még jobb csoportosítás.
ezen megközelítések egyike sem tudja végső soron megítélni a klaszterezés tényleges minőségét, de ehhez emberi értékelésre van szükség, ami nagyon szubjektív., Mindazonáltal az ilyen statisztikák meglehetősen informatívak lehetnek a rossz klaszterek azonosításában, de nem szabad elutasítani a szubjektív emberi értékelést.
belső értékelésszerkesztés
Ha a klaszterezési eredményt a fürtözött adatok alapján értékelik, ezt belső értékelésnek nevezik. Ezek a módszerek általában hozzárendelik a legjobb pontszámot az algoritmushoz, amely klasztereket hoz létre, amelyek nagy hasonlóságot mutatnak egy klaszteren belül, és alacsony a klaszterek közötti hasonlóság., A belső kritériumok alkalmazásának egyik hátránya a klaszterértékelésben, hogy egy belső intézkedés magas pontszámai nem feltétlenül eredményeznek hatékony információ-visszakeresési alkalmazásokat. Továbbá, ez az értékelés Elfogult algoritmusok, amelyek ugyanazt a klaszter modell. Például a K-means klaszterezés természetesen optimalizálja az objektumok távolságát, a távolság alapú belső kritérium pedig valószínűleg túlbecsüli a keletkező klasztert.,
ezért a belső értékelési intézkedések a legalkalmasabbak arra, hogy betekintést nyerjenek olyan helyzetekbe, ahol az egyik algoritmus jobban teljesít, mint a másik, de ez nem jelenti azt, hogy az egyik algoritmus több érvényes eredményt produkál, mint a másik. Az ilyen index által mért érvényesség attól függ, hogy ez a fajta struktúra létezik-e az adatkészletben. Valamilyen modellhez tervezett algoritmusnak nincs esélye, ha az adatkészlet radikálisan eltérő modellkészletet tartalmaz, vagy ha az értékelés radikálisan eltérő kritériumot mér., Például a K-means klaszterezés csak konvex klasztereket talál, sok értékelési index konvex klasztereket feltételez. A nem konvex klaszterekkel rendelkező adatkészleten sem a k-eszközök használata, sem a konvexitást feltételező értékelési kritérium nem megfelelő.
Több mint egy tucat belső értékelési intézkedés létezik, általában azon intuíció alapján, hogy az ugyanabban a klaszterben lévő elemeknek hasonlóbbnak kell lenniük, mint a különböző klaszterek elemeinek., következő képlet: D B = 1 n ∑ i = 1 n max j ≠ i ( σ i + σ j d ( c , c, j ) ) {\displaystyle DB={\frac {1}{n}}\összeg _{i=1}^{n}\max _{j\neq úgy}\left({\frac {\sigma _{i}+\sigma _{j}}{d(c_{i},c_{j})}}\right)}, ahol n a csoportok számától, c i {\displaystyle c_{i}} a súlypontja klaszter i {\displaystyle úgy} , σ i {\displaystyle \sigma _{i}} az átlagos távolság az összes elem halmaz i {\displaystyle úgy}, hogy van elrejtve középen c i {\displaystyle c_{i}} d ( c , c, j ) {\displaystyle d(c_{i},c_{j})} ez a távolság centroids c i {\displaystyle c_{i}} c j {\displaystyle c_{j}} ., Mivel algoritmusok, amelyek klaszterek alacsony belüli klaszter távolság (magas belüli klaszter hasonlóság), valamint a nagy inter-klaszter távolság (alacsony inter-klaszter hasonlóság) egy alacsony Davies–Bouldin index, a fürtözés algoritmust, ami előállít egy gyűjtemény a klaszterek a legkisebb Davies–Bouldin index tartják a legjobb algoritmus alapján ez a kritérium.
- Dunn index
a Dunn index célja a sűrű és jól elválasztott klaszterek azonosítása. Úgy definiáljuk, mint a minimális klaszterek közötti távolság aránya a maximális klaszteren belüli távolsághoz., Minden egyes klaszter partíció, a Dunn index lehet a következő képlettel kell kiszámítani: D = min 1 ≤ i < j ≤ n d ( i , j ) max 1 ≤ k ≤ n d ( k),, {\displaystyle D={\frac {\perc _{1\leq i<j\leq n}d(i,j)}{\max _{1\leq k\leq n}d^{\miniszterelnök }(k)}}\,,} ahol d(i,j) képviseli a klaszterek közötti távolság pedig j, d ‘(k) intézkedések a közösségen belüli klaszter távolsága klaszter k. Az inter-klaszter távolság d(i,j) két klaszterek lehet tetszőleges számú távolság intézkedések, mint például a távolság a centroids a klaszterek., Hasonlóképpen, a közösségen belüli klaszter távolság d(k) lehet mérni a különböző módon, például a maximális távolság bármely két elem halmaz k. Mivel a belső kritérium kérjen klaszterek magas belüli klaszter hasonlóság, illetve alacsony inter-klaszter hasonlóság, algoritmusok, amelyek klaszterek magas Dunn index több, kívánatos.
- sziluett-együttható
a sziluett-együttható ellentétben áll az ugyanazon klaszter elemeinek átlagos távolságával, a többi klaszter elemeinek átlagos távolságával., A magas sziluettértékű objektumokat jól csoportosítottnak tekintik, az alacsony értékű tárgyak kiugróak lehetnek. Ez az index jól működik a k-eszközök klaszterezésével, valamint a klaszterek optimális számának meghatározására is.
külső értékelésszerkesztés
a külső értékelés során a csoportosítási eredményeket olyan adatok alapján értékelik, amelyeket nem használtak csoportosításra, például ismert osztálycímkéket és külső referenciaértékeket. Az ilyen referenciaértékek előre Osztályozott tételekből állnak, ezeket a készleteket gyakran (szakértő) emberek hozzák létre., Így a benchmark-készletek arany standardnak tekinthetők az értékeléshez. Az ilyen típusú értékelési módszerek mérik, hogy a klaszterezés milyen közel van az előre meghatározott referenciaosztályokhoz. Nemrégiben azonban megvitatták, hogy ez megfelel-e a valós adatoknak, vagy csak a tényszerű alapigazsággal rendelkező szintetikus adatkészleteken, mivel az osztályok belső struktúrát tartalmazhatnak, a jelen lévő attribútumok nem teszik lehetővé a klaszterek elválasztását, vagy az osztályok anomáliákat tartalmazhatnak., Ezenkívül tudásfeltárási szempontból az ismert tudás reprodukálása nem feltétlenül a kívánt eredmény. A korlátozott klaszterezés speciális forgatókönyvében, ahol a metainformációkat (például osztálycímkéket) már használják a klaszterezési folyamatban, az értékelési célú információk visszatartása nem triviális.
számos intézkedést alkalmaznak az osztályozási feladatok értékeléséhez használt változatokból., A hely, ahol a számolni, hogy hányszor egy osztály volt megfelelően rendelt egyetlen adatról (ismert, mint a valódi pozitív), az ilyen pár számolja mutatók értékelésére, hogy minden pár adatokat, hogy valóban az azonos halmazba jósolta, hogy az azonos halmazba.
a belső értékeléshez hasonlóan számos külső értékelési intézkedés létezik: 125-129 például:
- tisztaság: a tisztaság annak mértéke, hogy a klaszterek milyen mértékben tartalmaznak egyetlen osztályt. Számítása a következőképpen gondolható: minden egyes klaszter esetében számolja meg az említett klaszter leggyakoribb osztályából származó adatpontok számát., Most vegye át az összeget az összes klaszterre, majd ossza meg az összes adatpontot. Hivatalosan, mivel egy sor klaszterek M {\displaystyle M}, meg pár sor osztályok, D {\displaystyle D} , mind a particionálás N {\displaystyle N} adatokat, tisztaság lehet meghatározni, mint:
1 N ∑ m ∈ M max d ∈ D | m ∩ d | {\displaystyle {\frac {1}{N}}\összeg _{m\M}\max _{d\D}{|m\cap d|}} Ez az intézkedés nem bünteti, hogy sok klaszterek, valamint több klaszterek megkönnyíti, hogy készítsen egy nagy tisztaságú. A tisztaság pontszám 1 mindig lehetséges azáltal, hogy minden adat pont a saját klaszter., Továbbá, a tisztaság nem működik jól a kiegyensúlyozatlan adatoknál, ahol még a rosszul teljesítő klaszterezési algoritmusok is nagy tisztaságú értéket adnak. Például, ha egy 1000-es méretű adatkészlet két osztályból áll, az egyik 999 pontot tartalmaz, a másik 1 pontot tartalmaz, akkor minden lehetséges partíció tisztasága legalább 99,9%.
- Rand index
a Rand index kiszámítja, hogy a klaszterek (amelyeket a klaszterező algoritmus ad vissza) mennyire hasonlítanak a benchmark osztályozásokhoz., Ezt a következő képlettel lehet kiszámítani: R I = T P + T N T P + F P + F N + t n {\displaystyle RI={\frac {TP+TN}{TP+FP+FN+TN}}} ahol T P {\displaystyle TP} a valódi pozitívok száma, T n {\displaystyle TN} az igaz negatívok száma, F P {\displaystyle FP} a hamis pozitívok száma, és F n {\displaystyle TN} FN} a hamis negatívok száma. Az itt megszámolt példányok a helyes páronkénti hozzárendelések száma., Ez, T a P {\displaystyle TP} az a szám, pár pontot, hogy csoportosulnak össze az adott partíciót, majd a földön, igazságot partíció, F P {\displaystyle FP} az a szám, pár pontot, hogy csoportosulnak össze az adott partíciót, de nem a földön, igazságot partíció stb. Ha az adatkészlet n méretű, akkor T P + T N + F P + F N = ( N 2 ) {\displaystyle TP+TN+FP+FN={\binomom {n}{2}}}}}.
a Rand index egyik problémája az, hogy a hamis pozitívokat és a hamis negatívokat egyaránt súlyozzák. Ez nemkívánatos jellemző lehet egyes klaszterezési alkalmazásokhoz., Az F-intézkedés foglalkozik ezzel az aggodalommal, csakúgy,mint a véletlen korrigált rand index.
- F-measure
az F-measure felhasználható a hamis negatívok hozzájárulásának kiegyensúlyozására a β ≥ 0 paraméteren keresztül történő visszahívás súlyozásával {\displaystyle \ beta \ geq 0} . A pontosság és a visszahívás (mindkét külső értékelési intézkedés önmagában) a következőképpen definiálható: P = T P T P + F P {\displaystyle P={\frac {TP}{TP+FP}}} R = T P TP + F n {\displaystyle R={\frac {TP} {TP + FN}}} ahol P {\displaystyle P} a precíziós sebesség és R {\displaystyle R} a visszahívási sebesség., Az F-mérést a következő képlet segítségével tudjuk kiszámítani: F β = (β 2 + 1) ⋅ p ⋅ r β 2 ⋅ p + r {\displaystyle F_ {\beta } = {\FRAC {(\beta ^{2} + 1) \ cdot P\cdot r}{\beta ^{2} \ cdot P+R}}} ha β = 0 {\displaystyle \ beta =0}, F 0 = P {\displaystyle F_{0} = p}. Más szavakkal, a visszahívásnak nincs hatása az F-mérésre, amikor β = 0 {\displaystyle \ beta = 0} , és a β {\displaystyle \beta } növelése növekvő súlyt oszt ki a visszahíváshoz a végső F-mérésben. Szintén T n {\displaystyle TN} nem veszik figyelembe, és változhat 0 felfelé megkötés nélkül.,
- Jaccard index
a Jaccard index a két adatkészlet közötti hasonlóság számszerűsítésére szolgál. A Jaccard index 0 és 1 közötti értéket vesz fel. Az 1 index azt jelenti, hogy a két adatkészlet azonos, a 0 index pedig azt jelzi, hogy az adatkészleteknek nincs közös eleme. A Jaccard indexet a következő képlet határozza meg: J ( A , B ) = | A ∩ B | | A ∪ B | = T P T P + F P + F n {\displaystyle J(A,B)={\frac {|a\cap B|}{|A\cup B|}}}={\FRAC {TP} {TP+FP+FN}}}}} ez egyszerűen a két halmazra jellemző egyedi elemek száma, osztva mindkét halmazban az egyedi elemek teljes számával., Szintén T n {\displaystyle TN} nem veszik figyelembe, és változhat 0 felfelé megkötés nélkül.
- Kocka index
A Kocka szimmetrikus intézkedés megduplázza a súlyát T P {\displaystyle TP}, miközben még mindig figyelmen kívül hagyja a T N {\displaystyle TN} : D S C = 2 T P 2 T P + F O + F N {\displaystyle DSC={\frac {2TP}{2TP+FP+FN}}}
- Fowlkes–Mályvacukorral index
A Fowlkes–Mályvacukorral index kiszámítja a hasonlóság a klaszterek által visszaadott a fürtözés algoritmus, illetve a benchmark osztályozás., Minél magasabb a Fowlkes–Mallows index értéke, annál inkább hasonlítanak a klaszterek és a benchmark besorolások. A következő képlettel számítható ki: F M = T P P + F P ⋅ T P + F n {\displaystyle FM={\sqrt {\FRAC {TP}} {TP+FP}}}\cdot {\frac {TP} {TP+FN}}}}}} ahol T P {\displaystyle TP} a valódi pozitívok száma, F P {\displaystyle FP} a hamis pozitívok száma, és F n {\displaystyle FN} a hamis negatívok száma., Az F m {\displaystyle FM} index a pontosság és a visszahívás geometriai átlaga p {\displaystyle p} és R {\displaystyle R} , így G-mérték néven is ismert, míg az F-mérték a harmonikus átlaguk. A precizitást és a visszahívást egyébként Wallace B I {\displaystyle b^{i}} és B I {\displaystyle B^{II} indexeinek is nevezik . A recall, precision és G-measure véletlen normalizált változatai a tájékozottság, a Markedness és a Matthews korrelációnak felelnek meg, és erősen kapcsolódnak a Kappa-hoz.,
- a kölcsönös információ egy olyan információelméleti mérőszám, hogy mennyi információt osztanak meg a klaszterezés és a föld-igazság osztályozás között, amely képes kimutatni a két klaszter közötti nemlineáris hasonlóságot. A normalizált kölcsönös információ ennek korrigált véletlen változatainak családja, amely csökkentett torzítással rendelkezik a változó klaszterszámokhoz.
- Confusion matrix
a confusion matrix lehet használni, hogy gyorsan láthatóvá az eredmények a besorolás (vagy klaszterezés) algoritmus. Megmutatja, hogy egy klaszter mennyire különbözik az arany standard klasztertől.,
Cluster tendencyEdit
a klaszter tendenciájának mérésére az, hogy milyen mértékben léteznek klaszterek a fürtözendő adatokban,és kezdeti tesztként is elvégezhető, mielőtt megpróbálná a klasztert. Ennek egyik módja az adatok véletlenszerű adatokkal való összehasonlítása. A véletlenszerű adatoknak átlagosan nem lehetnek klaszterek.
- Hopkins statisztika
a Hopkins-statisztika több formulája is létezik. Egy tipikus a következő. Legyen X {\displaystyle X} az n {\displaystyle n} adatpontok halmaza d {\displaystyle d} dimenziós térben., Vegyünk egy véletlenszerű mintát (csere nélkül) az M ≪ n {\displaystyle m\ll n} adatpontokból X i {\displaystyle x_{i}} tagokkal . Szintén generál egy sor y {\displaystyle Y} m {\displaystyle m} egyenletesen véletlenszerűen elosztott adatpontok. Most határozzon meg két távolságmérőt, u i {\displaystyle u_{i}}, hogy Y i ∈ y {\displaystyle y_{i}\in y} távolság legyen a legközelebbi szomszédjától X és w i {\displaystyle w_{i}}, hogy X i ∈ x {\displaystyle x_{i}\in X} távolság legyen a legközelebbi szomszédjától X X-ben., Ezután adjuk meg a Hopkins statisztika szerint: H = ∑ i = 1 m u i d ∑ i = 1 m u i d + ∑ i = 1 m m i d , {\displaystyle H={\frac {\összeg _{i=1}^{m}{u_{i}^{d}}}{\összeg _{i=1}^{m}{u_{i}^{d}}+\összeg _{i=1}^{m}{w_{i}^{d}}}}\,,} ez A meghatározás, egységes véletlenszerű adatok inkább az értékek közel 0,5, a fürtözött data inkább az értékek közelebb van 1-hez., Az adatok azonban, amely csak egyetlen Gauss is pontszám közel 1, mint ez a statisztika intézkedések eltérés egy egyenletes eloszlás, nem multimodalitás, hogy ez a statisztika nagyrészt használhatatlan alkalmazás (mint valós adatokat nem ez távolról sem egységes).