ROC curve
Una curva ROC (receiver operating characteristic curve) è un grafico che mostra le prestazioni di un modello di classificazione in tutte le classificazioni., Questa curva trame di due parametri:
- True Positive Rate
- Tasso di Falsi Positivi
True Positive Rate (TPR) è sinonimo di richiamo ed è thereforedefined come segue:
Tasso di Falsi Positivi (FPR) è definito come segue:
Una curva ROC trame TPR vs FPR a diverse soglie di classificazione.L’abbassamento della soglia di classificazione classifica più articoli come positivi, quindi aumentando sia i falsi positivi che i veri positivi. La figura seguente mostra la curva ROC atipica.,
Figura 4. TP vs. tasso FP a diverse soglie di classificazione.
Per calcolare i punti in una curva ROC, potremmo valutare un regressionmodel logistico molte volte con soglie di classificazione diverse, ma questo sarebbeinefficiente. Fortunatamente, c’è un algoritmo efficiente basato sull’ordinamento che può fornire queste informazioni per noi, chiamato AUC.
AUC: Area sotto la curva ROC
Figura 5., AUC (Area sotto la curva ROC).
AUC fornisce una misura aggregata delle prestazioni su tutte le soglie di classificazione possibili. Un modo di interpretare AUC è come il probabilitythat il modello classifica un esempio positivo casuale più altamente di un esempio randomnegative. Ad esempio, dati i seguenti esempi, che sono organizzatida sinistra a destra in ordine crescente delle previsioni di regressione logistica:
Figura 6. Le previsioni sono classificate in ordine crescente del punteggio di regressione logistica.,
AUC rappresenta la probabilità che un esempio positivo casuale (verde) sia posizionato a destra di un esempio negativo casuale (rosso).
Il valore dell’AUC varia da 0 a 1. Un modello le cui previsioni sono errate al 100% ha un’AUC di 0,0; uno le cui previsioni sono corrette al 100% ha un’AUC di 1,0.
L’AUC è desiderabile per i seguenti due motivi:
- L’AUC è invariante alla scala. Misura quanto bene le predizionisono classificati, piuttosto che i loro valori assoluti.
- AUC è classificazione-soglia-invariante., Misura la qualità delle previsioni del modello indipendentemente dalla soglia di classificazione scelta.
Tuttavia, entrambi questi motivi sono dotati di avvertimenti, che possono limitare l’utilità dell’AUC in alcuni casi d’uso:
-
L’invarianza di scala non è sempre desiderabile. Ad esempio, a volte sono necessari output di probabilità ben calibrati e l’AUC non lo dirà.
-
L’invarianza della soglia di classificazione non è sempre desiderabile. In casidove ci sono ampie disparità nel costo dei falsi negativi vs., falsi positivi, può essere fondamentale per ridurre al minimo un tipo di errore di classificazione. Ad esempio,quando si esegue il rilevamento dello spam e-mail, è probabile che si desideri dare la priorità alla riduzione dei falsi positivi (anche se ciò comporta un aumento significativo dei falsi negativi). Aucisn’t una metrica utile per questo tipo di ottimizzazione.