curva ROC
Uma curva ROC (receiver operating characteristic curve) é um graphshowing o desempenho de um modelo de classificação em todos os classificationthresholds., Esta curva parcelas de dois parâmetros:
- True Taxa Positiva
- Taxa de Falso-Positivo
Taxa de Verdadeiro Positivo (TPR) é um sinônimo para recordar e é thereforedefined da seguinte forma:
Taxa de Falsos Positivos (FPR) é definida da seguinte forma:
Uma curva ROC parcelas TPR vs. FPR na classificação diferentes limiares.A redução do limiar de classificação classifica mais itens como positivos, aumentando assim tanto os falsos positivos como os verdadeiros positivos. A figura seguinte mostra curva ROC atípica.,
Figura 4. Taxa TP vs. FP a diferentes limiares de classificação.para calcular os pontos numa curva ROC, poderíamos avaliar um modelo de regresão logístico muitas vezes com diferentes limiares de classificação, mas isso seria ineficaz. Felizmente, há um algoritmo eficiente e baseado em ordenação que pode fornecer essa informação para nós, chamado AUC.
AUC: Área Sob a Curva ROC
Figura 5., AUC (área sob a curva ROC).
a AUC fornece uma medida agregada do desempenho em todos os limiares de classificação possíveis. Uma maneira de interpretar AUC é como a probabilidade de que o modelo classifica um exemplo positivo Aleatório mais altamente do que um exemplo negativo Aleatório. Por exemplo, considerando os seguintes exemplos, que são arrangedfrom esquerda para a direita, em ordem crescente de regressão logística previsões:
Figura 6. Previsões classificadas por ordem ascendente de pontuação de regressão logística.,
AUC representa a probabilidade de que um exemplo positivo Aleatório (verde) seja posicionado à direita de um exemplo negativo Aleatório (vermelho).a AUC varia entre 0 e 1. Um modelo cujas previsões são 100% wronghas uma AUC de 0, 0; um cujas previsões são 100% corretas tem uma AUC de 1, 0.
AUC é desejável pelas duas razões SEGUINTES:
- AUC é invariante em escala. Mede até que ponto as previsões são bem classificadas, em vez dos seus valores absolutos.
- AUC is classification-threshold-invariant., Mede a qualidade das previsões do modelo, independentemente do limiar de classificação escolhido.
No entanto, ambas estas razões vêm com advertências, que podem limitar a utilidade da AUC em certos casos de uso:
-
invariância de escala nem sempre é desejável. Por exemplo, às vezes é necessário calibrar bem as saídas de probabilidade, e a AUC não vai dizer nada sobre isso.
-
invariância do limiar de classificação nem sempre é desejável. Nos casos em que existem grandes disparidades no custo dos falsos negativos vs., falsos positivos, pode ser fundamental minimizar um tipo de erro de classificação. Por exemplo,ao fazer a detecção de spam por e-mail, você provavelmente quer priorizar a minimização de falsos positivos (mesmo que isso resulte em um aumento significativo de falsos negativos). AUCisn não é uma métrica útil para este tipo de otimização.