ROC-käyrä
On ROC-käyrä (receiver operating characteristic curve) on graphshowing suorituskyvyn luokitus malli ollenkaan classificationthresholds., Tämä käyrä tontteja kaksi parametria:
- Tosi Positiivinen Korko
- Vääriä Positiivisia
– Tosi Positiivinen Korko (TPR) on synonyymi muistaa ja on thereforedefined seuraavasti:
False positive Rate (FPR) on määritelty seuraavasti:
On ROC-käyrän tontteja TPR vs. FPR eri luokituksen raja-arvot.Luokituskynnyksen madaltaminen luokittelee useampia kohteita positiivisiksi, mikä lisää sekä vääriä positiivisia että todellisia positiivisia. Seuraavassa kuvassa esitetään epätyypillinen ROC-käyrä.,
Kuva 4. TP vs. FP rate eri luokituskynnyksillä.
ROC-käyrän pisteiden laskemiseksi voisimme arvioida logistista regressiomallia monta kertaa erilaisilla luokituskynnyksillä, mutta tämä olisi puutteellista. Onneksi on olemassa tehokas, lajitteluun perustuva algoritmi, joka voi antaa tämän tiedon meille, nimeltään AUC.
AUC: Ala ROC-Käyrä
Kuva 5., AUC (alue ROC-käyrän alla).
AUC-tarjoaa yhteensä toimenpide suorituskyvyn kaikissa possibleclassification raja-arvot. Yksi tapa tulkita AUC on kuin probabilitythat malli riveissä satunnainen positiivinen esimerkki korkeammalle kuin randomnegative esimerkki. Esimerkiksi, kun otetaan huomioon seuraavat esimerkit, jotka ovat arrangedfrom vasemmalta oikealle nousevassa järjestyksessä logistinen regressio ennustukset:
Kuva 6. Ennusteet sijoittuivat nousevaan logistisen regressiopisteen mukaiseen järjestykseen.,
AUC kuvaa todennäköisyyttä, että satunnaispositiivinen (vihreä) esimerkki sijoittuu satunnaisen negatiivisen (punaisen) esimerkin oikealle puolelle.
AUC-arvo vaihtelee välillä 0-1. Malli, jonka ennusteet ovat 100% wronghas AUC 0.0; yksi, jonka ennusteet ovat 100% oikein on AUC-arvo 1.0.
AUC on toivottavaa seuraavista kahdesta syystä:
- AUC on asteikko-invariantti. Se mittaa sitä, kuinka hyvin ennusteet on rankattu, eikä niiden absoluuttisia arvoja.
- AUC on luokitus-kynnys-invariantti., Se mittaa mallin ennusteiden laatua riippumatta siitä, millaiseksi luokittelukynnys valitaan.
Kuitenkin, molemmat näistä syistä tulevat varoitukset, jotka maylimit hyödyllisyyttä AUC tietyissä tapauksissa:
-
Mittakaavassa invarianssi ei ole aina toivottavaa. Joskus tarvitaan esimerkiksi hyvin kalibroituja todennäköisyyslähtöjä, eikä AUC kerro siitä.
-
Luokituskynnyksen invarianssi ei aina ole toivottavaa. Tapauksissa, joissa väärien negatiivien kustannuksissa on suuria eroja vs., vääriä positiivisia, se voi olla kriittinen minimoida yhden tyyppinen luokitteluvirhe. Esimerkiksi, kun teet roskapostin tunnistus,sinun todennäköisesti haluavat priorisoida vähentää vääriä positiivisia (vaikka se johtaa merkittävään kasvuun vääriä negatiivisia). AUCisn ei ole hyödyllinen mittari tämäntyyppiselle optimoinnille.