ROC curve
Une courbe ROC (receiver operating characteristic curve) est un graphique montrant les performances d’un modèle de classification à tous les niveaux de classification., Cette courbe trace deux paramètres:
- taux vrai positif
- taux faux positif
le taux vrai positif (TPR) est synonyme de rappel et est donc défini comme suit:
le taux faux positif (FPR) est défini comme suit:
une courbe ROC trace TPR vs FPR à différents seuils de classification.L’abaissement du seuil de classification classe plus d’éléments comme positifs, augmentant ainsi les faux positifs et les vrais positifs. La figure suivante montre une courbe ROC atypique.,
la Figure 4. Taux de TP par rapport au taux de PF à différents seuils de classification.
pour calculer les points d’une courbe ROC, nous pourrions évaluer plusieurs fois un modèle de régression logistique avec des seuils de classification différents, mais cela serait inefficace. Heureusement, il existe un algorithme efficace basé sur le tri qui peut nous fournir ces informations, appelé AUC.
AUC: Aire Sous la Courbe ROC
la Figure 5., L’ASC (Aire sous la Courbe ROC).
L’AUC fournit une mesure globale du rendement pour tous les seuils de classification possibles. Une façon d’interpréter L’AUC est que la probabilitéque le modèle classe un exemple positif aléatoire plus fortement qu’un exemple négatif aléatoire. Par exemple, étant donné les exemples suivants, qui sont disposés de gauche à droite dans l’ordre croissant des prédictions de régression logistique:
Figure 6. Prédictions classées par ordre croissant de score de régression logistique.,
AUC représente la probabilité qu’un exemple positif aléatoire (Vert) soit positionnéà droite d’un exemple négatif aléatoire (rouge).
la valeur AUC varie de 0 à 1. Un modèle dont les prédictions sont erronées à 100% a une ASC de 0,0; celui dont les prédictions sont correctes à 100% a une ASC de 1,0.
L’AUC est souhaitable pour les deux raisons suivantes:
- L’AUC est invariante à l’échelle. Il mesure à quel point les prédictionsont classés, plutôt que leurs valeurs absolues.
- AUC est invariant de seuil de classification., Il mesure la qualité des prédictions du modèle indépendamment du seuil de classification choisi.
Cependant, ces deux raisons viennent avec des réserves, qui maylimit l’utilité de l’ASC dans certains cas d’utilisation:
-
invariance d’Échelle n’est pas toujours souhaitable. Par exemple, parfois, nous avons besoin de sorties de probabilité bien calibrées, et AUC ne le dira pas.
-
Classification seuil d’invariance n’est pas toujours souhaitable. Dans les cas où il existe de grandes disparités entre le coût des faux négatifs et celui des faux négatifs., faux positifs, il peut être essentiel de minimiser un type d’erreur de classification. Par exemple,lorsque vous effectuez une détection de spam par e-mail, vous souhaitez probablement donner la priorité à la minimisation des faux positifs (même si cela entraîne une augmentation significative des faux négatifs). Aucisn’est pas une mesure utile pour ce type d’optimisation.