ROC-kurve

Et ROC-kurve (receiver operating characteristic curve) er en graphshowing ytelsen av en klassifisering-modellen på alle classificationthresholds., Denne kurven tomter to parametere:

  • Sanne Positive Pris
  • False Positive Rate

True Positiv Rate (TPR) er et synonym for recall og er thereforedefined som følger:

$$TPR = \frac{TP} {TP + FN}$$

Falsk Positiv Rate (FPR) er definert som følger:

$$FPR = \frac{FP} {FP + TN}$$

Et ROC-kurve tomter TPR vs. FPR på en annen klassifisering terskler.Å senke klassifisering terskelen klassifiserer flere elementer som positivt, thusincreasing både Falske Positive og Sanne Positive. Følgende figur viser atypisk ROC-kurven.,

Figur 4. TP vs. FP pris på en annen klassifisering terskler.

for Å beregne poeng i en ROC-kurve, vi kunne evaluere en logistisk regressionmodel mange ganger med forskjellige klassifisering terskler, men dette ville beinefficient. Heldigvis, det er en effektiv, sortering-basert algorithmthat kan gi denne informasjonen for oss, kalt AUU.

AUU: Arealet Under ROC-Kurven

Figur 5., AUU (Arealet under ROC-Kurven).

AUU gir et samlet mål på ytelse på tvers av alle possibleclassification terskler. En måte å tolke AUU er som probabilitythat modellen rangerer en tilfeldig positivt eksempel mer enn en randomnegative eksempel. For eksempel, gitt følgende eksempler, som er arrangedfrom venstre til høyre i stigende rekkefølge av logistisk regresjon spådommer:

Figur 6. Spådommer er rangert i stigende rekkefølge av logistisk regresjon score.,

AUU representerer sannsynligheten for at en tilfeldig positivt (grønt) eksempel er positionedto høyre for en tilfeldig negativ (red) eksempel.

AUU varierer i verdi fra 0 til 1. En modell hvis spådommer er 100% wronghas en AUU av 0.0; en som spådommer er 100% riktig har en AUU 1.0.

AUU er ønskelig for de følgende to årsaker:

  • AUU er skala-invariant. Det er et mål for hvor godt predictionsare rangert, snarere enn de absolutte verdier.
  • AUU er klassifisering-terskel-invariant., Den måler thequality av modellens prediksjoner uavhengig av whatclassification terskelen er valgt.

Men, begge disse grunnene komme med forbehold, som maylimit nytten av AUU i visse tilfeller:

  • Skala invarians er ikke alltid ønskelig. For eksempel, noen ganger wereally trenger godt kalibrert sannsynlighet utganger, og AUU ikke shell tellus om det.

  • Klassifisering-terskelen invarians er ikke alltid ønskelig. I caseswhere det er store forskjeller i kostnadene falske negativer vs., falske positive, det kan være avgjørende for å minimere en type klassifisering feil. For eksempel, når du gjør e-post spam deteksjon,har du sannsynligvis ønsker å prioritere å minimere falske positiver (selv ifthat resulterer i en betydelig økning av falske negativer). AUCisn ikke en nyttig beregning for denne type optimalisering.

Legg igjen en kommentar

Din e-postadresse vil ikke bli publisert. Obligatoriske felt er merket med *