curba ROC

O curba ROC (receiver operating characteristic curve) este un graphshowing performanța unui model de clasificare la toate classificationthresholds., Această curbă parcele doi parametri:

  • Adevărata Rată Pozitivă
  • Rata de Fals Pozitive

Adevărata Rată Pozitivă (TPR) este un sinonim pentru amintim și este thereforedefined după cum urmează:

$$TPR = \frac{TP} {TP + FN}$$

Rată de rezultate Fals Pozitive (FPR) este definită după cum urmează:

$$FPR = \frac{FP} {FP + TN}$$

O curba ROC parcele TPR vs FPR la diferite clasificare praguri.Scăderea clasificarea pragul clasifică mai multe elemente ca fiind pozitive, thusincreasing atât rezultate Fals Pozitive și Adevărat Pozitive. Următoarea figură prezintă curba Roc atipică.,

Figura 4. Rata pt vs. FP la diferite praguri de clasificare.

Pentru a calcula puncte intr-o curba ROC, am putea evalua un logistic regressionmodel de multe ori diferite de clasificare praguri, dar acest lucru ar beinefficient. Din fericire, există un algoritm eficient, bazat pe Sortare, care ne poate furniza aceste informații, numit ASC.

AUC: Aria Sub Curba ROC

Figura 5., ASC(aria de sub curba ROC).

ASC oferă o măsură agregată a performanței în toate pragurile posibile de clasificare. O modalitate de interpretare a ASC este ca probabilitatecă modelul clasează un exemplu pozitiv aleatoriu mai mult decât un exemplu negativ aleator. De exemplu, având în vedere următoarele exemple, care sunt arrangedfrom de la stânga la dreapta în ordine crescătoare de regresie logistică predictii:

Figura 6. Predicții clasate în ordine crescătoare a scorului de regresie logistică.,

ASC reprezintă probabilitatea ca un exemplu pozitiv aleatoriu (verde) să fie poziționatla dreapta unui exemplu negativ aleatoriu (roșu).

ASC variază în valoare de la 0 la 1. Un model ale cărui predicții sunt 100% greșiteare o ASC de 0,0; unul ale cărui predicții sunt 100% corecte are o ASC de 1,0.ASC este de dorit din următoarele două motive:

  • ASC este invariantă la scară. Măsoară cât de bine predicțiisunt clasate, mai degrabă decât valorile lor absolute.
  • ASC este clasificarea-prag-invariant., Măsoară calitatea predicțiilor modelului, indiferent de pragul de clasificare ales.cu toate acestea, ambele motive vin cu avertismente, ceea ce poatelimita utilitatea ASC în anumite cazuri de utilizare:

    • invarianța scării nu este întotdeauna de dorit. De exemplu, uneori au fost într-adevăr nevoie de ieșiri de probabilitate bine calibrate, iar ASC nu va spune despre asta.clasificarea-invarianța pragului nu este întotdeauna de dorit. În cazurile în care există diferențe mari în costul fals negative vs., fals pozitive, poate fi esențial să minimalizați un tip de eroare de clasificare. De exemplu, atunci când faci e-mail spam de detectare,vă recomandăm să acorde prioritate minimizarea fals pozitive (chiar dacă rezultatele într-o creștere semnificativă de fals negative). AUCisn ‘ t o metrică utilă pentru acest tip de optimizare.

Lasă un răspuns

Adresa ta de email nu va fi publicată. Câmpurile obligatorii sunt marcate cu *