Roc-kurva

en Roc-kurva (mottagarens operativa karaktäristiska kurva) är en graf som visar prestandan hos en klassificeringsmodell vid alla klassificeringarhållanden., Denna kurva visar två parametrar:

  • sann positiv hastighet
  • falsk positiv hastighet

sann positiv hastighet (TPR) är en synonym för återkallelse och är därför definierad enligt följande:

$$TPR = \frac{TP} {TP + FN}$$

falsk positiv hastighet (FPR) definieras enligt följande:

$$FPR = \frac{FP} {FP + tn}$$

en Roc-kurva plottar TPR vs. FPR vid olika Klassificeringströsklar.Att sänka klassificeringströskeln klassificerar fler poster som positiva, dåökar både falska positiva och sanna positiva. Följande figur visar atypisk ROC-kurva.,

Figur 4. TP vs FP hastighet vid olika klassificeringströsklar.

för att beräkna punkterna i en Roc-kurva kunde vi utvärdera en logistisk regressionsmodell många gånger med olika klassificeringströsklar, men det skulle vara bristfälligt. Lyckligtvis finns det en effektiv, sorteringsbaserad algoritmsom kan ge denna information till oss, kallad AUC.

AUC: område Under Roc-kurvan

Figur 5., AUC (Area under ROC-Kurvan).

AUC ger ett aggregerat mått på prestanda över alla möjliga klassificeringströsklar. Ett sätt att tolka AUC är som sannolikhetenatt modellen rankas ett slumpmässigt positivt exempel mer högt än ett slumpmässigtnegativt exempel. Till exempel, med tanke på följande exempel, som ordnasfrån vänster till höger i stigande ordning av logistiska regressionsprognoser:

Figur 6. Förutsägelser rankas i stigande ordning av logistisk regression poäng.,

AUC representerar sannolikheten för att ett slumpmässigt positivt (grönt) exempel placeras till höger om ett slumpmässigt negativt (rött) exempel.

AUC varierar i värde från 0 till 1. En modell vars förutsägelser är 100% felhar en AUC på 0.0; en vars förutsägelser är 100% korrekta har en AUC på 1.0.

AUC är önskvärt av följande två skäl:

  • AUC är scale-invariant. Det mäter hur väl förutsägelser rangordnas, snarare än deras absoluta värden.
  • AUC är klassificering-tröskel-invariant., Den mäter kvaliteten på modellens förutsägelser oberoende av vilken klassificeringströskel som väljs.

båda dessa skäl kommer dock med varningar, vilket kan begränsa användbarheten av AUC i vissa användningsfall:

  • Skalinvarians är inte alltid önskvärt. Till exempel behöver ibland verkligen väl kalibrerade sannolikhetsutgångar, och AUC kommer inte att berätta om det.

  • klassificering-tröskel invariance är inte alltid önskvärt. I fall där det finns stora skillnader i kostnaden för falska negativ vs., falska positiva, det kan vara viktigt att minimera en typ av klassificeringsfel. Till exempel,när du gör e-post spam upptäckt, du sannolikt vill prioritera minimera falska positiva (även omDet resulterar i en betydande ökning av falska negativ). AUCisn är inte ett användbart mått för denna typ av optimering.

Lämna ett svar

Din e-postadress kommer inte publiceras. Obligatoriska fält är märkta *