ROC curve
a ROC curve (receiver operating characteric curve)egy gráf, amely egy osztályozási modell teljesítményét mutatja minden osztályozásiagresszión., Ez a görbe telkek két paraméterek:
- Igaz Pozitív Arány
- Hamis Pozitív Arány
Igazi Pozitív Arány (TPR) egy szinonimája, ha az thereforedefined a következőképpen:
a Hamis Pozitív Arány (FPR) meghatározása a következő:
Egy ROC görbe telkek TPR vs FPR különböző besorolás küszöbértékeinek.Az osztályozási küszöb csökkentése több tételt pozitívnak osztályoz, ezmind a hamis pozitív, mind a valódi pozitív értékeket növeli. Az alábbi ábra atipikus ROC-görbét mutat.,
4.ábra. TP vs. FP Arány különböző osztályozási küszöbértékeken.
a ROC-görbe pontjainak kiszámításához sokszor ki tudnánk értékelni egy logisztikus regressziómodellt különböző osztályozási küszöbértékekkel, de ez nem lenne megfelelő. Szerencsére van egy hatékony, válogató alapú algoritmusamelyek ezt az információt megadhatják nekünk, az úgynevezett AUC.
AUC: a ROC görbe alatti terület
5.ábra., AUC (a ROC görbe alatti terület).
az AUC összesített teljesítménymérést biztosít az összes lehetséges osztályozási küszöbérték között. Az AUC értelmezésének egyik módja a valószínűséghogy a modell egy véletlenszerű pozitív példát sorol fel, amely magasabb, mint egy véletlennegatív példa. Például, tekintettel a következő példákra, amelyeket elrendeznek balról jobbra a logisztikai regressziós előrejelzések növekvő sorrendjében:
6. ábra. Jóslatok rangsorolt növekvő sorrendben logisztikai regressziós pontszám.,
az AUC azt a valószínűséget jelöli, hogy egy véletlenszerű pozitív (zöld) példa egy véletlenszerű negatív (piros) példa jobb oldalán helyezkedik el.
az AUC értéke 0-tól 1-ig terjed. Egy modell, amelynek előrejelzései 100% – ban rosszak0, 0 AUC-vel rendelkezik; az egyik, amelynek előrejelzései 100% – ban helyesek, 1, 0 AUC-vel rendelkezik.
az AUC kívánatos a következő két okból:
- az AUC skála-invariáns. Azt méri, hogy milyen jól előrejelzéseket rangsorolják, nem pedig abszolút értékeiket.
- az AUC osztályozás-küszöb-invariáns., Méri a modell előrejelzéseinek minőségét, függetlenül attól, hogy milyen besorolási küszöböt választanak.
azonban mindkét ok figyelmeztetéssel jár, ami bizonyos felhasználási esetekben korlátozhatja az AUC hasznosságát:
-
Scale invariance nem mindig kívánatos. Például néha jól kalibrált valószínűségi kimenetre van szükség, és erről az AUC nem fog beszélni.
-
osztályozás-küszöbérték invariancia nem mindig kívánatos. Azokban az esetekben, ahol széles különbségek vannak a hamis negatívok költségeiben vs., hamis pozitív, kritikus lehet az osztályozási hiba egyik típusának minimalizálása. Például az e-mail spam észlelésekor valószínűleg a hamis pozitív értékek minimalizálását szeretné prioritásként kezelni (még akkor is, haez a hamis negatívok jelentős növekedését eredményezi). Az aucisn nem hasznos mutató az ilyen típusú optimalizáláshoz.