adesea, când vorbesc cu organizații care doresc să implementeze știința datelor în procesele lor, ei pun adesea întrebarea: „Cum obțin cel mai precis model?”. Și am întrebat mai departe: „ce provocare de afaceri încerci să rezolvi folosind modelul?,”și voi obține aspectul nedumerit, deoarece întrebarea pe care am pus-o nu răspunde cu adevărat la întrebarea lor. Va trebui apoi să explic de ce am pus întrebarea înainte de a începe să explorăm dacă precizia este metrica modelului be-all și end-all din care vom alege modelul nostru „cel mai bun”.așa că m-am gândit că voi explica în această postare pe blog că precizia nu trebuie să fie necesară pentru un singur model de măsurare a datelor pe care oamenii de știință îl urmăresc și includ o explicație simplă a altor valori.în primul rând, să ne uităm la următoarea matrice de confuzie. Care este precizia modelului?,
Foarte ușor, veți observa că de precizie pentru acest model este foarte foarte mare, la 99.9%!! Uau! Ați lovit potul cel Mare și Sfântul Graal (*țipați și alergați în jurul camerei, pompând pumnul în aer de mai multe ori*)!
dar….(Ei bine, știi acest lucru vine dreapta?) ce se întâmplă dacă am menționat că pozitiv aici este de fapt cineva care este bolnav și care transportă un virus care se poate răspândi foarte repede?, Sau pozitiv aici reprezintă un caz de fraudă? Sau pozitiv aici reprezintă terorist că modelul spune sa un non-terorist? Ei bine, ai prins ideea. Costurile de a avea un pozitiv real (sau fals negativ) clasificat greșit sunt foarte mari aici în aceste trei circumstanțe pe care le-am prezentat.
OK, deci acum ți-ai dat seama că precizia nu este metrica modelului be-all și end-all pe care să o folosești atunci când selectezi cel mai bun model…acum ce?
permiteți-mi să introduc două valori noi (dacă nu ați auzit despre asta și dacă o faceți, poate doar să-mi faceți puțin umor și să continuați să citiți?, Deci, dacă vă uitați la Wikipedia, veți vedea că formula pentru calcularea preciziei și rechemarea este următoarea:
permiteți-mi să o pun aici pentru explicații suplimentare.
lasă-mă Să pun în matricea confuzie și părțile sale aici.
Precizie
Mare!, Acum, să ne uităm mai întâi la precizie.
Ce ai observat de la numitor? Numitorul este de fapt totalul prezis pozitiv!, So the formula becomes
Immediately, you can see that Precision talks about how precise/accurate your model is out of those predicted positive, how many of them are actual positive.,
precizia este o măsură bună pentru a determina, atunci când costurile fals pozitive este mare. De exemplu, detectarea spamului prin e-mail. În detectarea spam-ului prin e-mail, un fals pozitiv înseamnă că un e-mail care nu este spam (negativ real) a fost identificat ca spam (spam prezis). Utilizatorul de e-mail ar putea pierde e-mailuri importante dacă precizia nu este mare pentru modelul de detectare a spamului.deci, să aplicăm aceeași logică pentru rechemare. Amintiți-vă cum se calculează rechemarea.,
There you go! So Recall actually calculates how many of the Actual Positives our model capture through labeling it as Positive (True Positive)., Aplicând aceeași înțelegere, știm că rechemarea va fi metrica modelului pe care o folosim pentru a selecta cel mai bun model atunci când există un cost ridicat asociat cu fals negativ.
de exemplu, în detectarea fraudei sau detectarea pacienților bolnavi. Dacă o tranzacție frauduloasă (pozitivă reală) este prezisă ca non-frauduloasă (anticipată negativă), consecința poate fi foarte proastă pentru bancă.în mod similar, în detectarea pacientului bolnav. Dacă un pacient bolnav (pozitiv real) trece prin test și se prezice că nu este bolnav (prezis negativ)., Costul asociat cu fals negativ va fi extrem de ridicat dacă boala este contagioasă.
scorul F1
acum, dacă citiți o mulțime de alte literaturi despre precizie și rechemare, nu puteți evita cealaltă măsură, F1, care este o funcție de precizie și rechemare. Se uită la Wikipedia, formula este după cum urmează:
F1 Scorul este necesar atunci când doriți să caute un echilibru între Precizia și Recall., Right…so care este diferența dintre scorul F1 și precizia atunci? Am văzut anterior că precizia poate fi, în mare măsură, au contribuit cu un număr mare de Adevărat Negative care, în cele mai multe cazuri de afaceri, de a nu ne concentra pe mult întrucât Fals Negative și Fals Pozitive are, de obicei, costurile de afaceri (tangibile & intangibile) astfel F1 Scor ar putea fi o măsură bună de a utiliza, dacă trebuie să caute un echilibru între Precizia și Recall ȘI există o distribuție inegală a clasa de distribuție (număr mare de Efective Negative).,sper că explicația îi va ajuta pe cei care încep știința datelor și lucrează la probleme de clasificare, că precizia nu va fi întotdeauna metrica pentru a selecta cel mai bun model.notă: luați în considerare înscrierea pentru newsletter-ul meu sau cap la site-ul meu pentru cele mai recente.doresc tuturor cititorilor o călătorie distractivă de învățare a științei datelor.