Mikä mittareita valita?

Usein kun puhun organisaatiot, jotka haluavat toteuttaa data science osaksi prosessejaan, he usein kysyä, ”Miten voin saada eniten tarkka malli?”. Kysyin edelleen: ”mitä liiketoimintahaastetta yrität ratkaista mallin avulla?,”ja saan hämmentävän ilmeen, koska esittämäni kysymys ei oikein vastaa heidän kysymykseensä. Minun on sitten selitettävä, miksi esitin kysymyksen ennen kuin alamme tutkia, onko tarkkuus se be-all-All-All-model metriikka, josta valitsemme ”parhaan” mallimme.

joten ajattelin selittää tässä blogikirjoituksessa, että tarkkuuden ei tarvitse olla ainoa mallimittaristo, jota tutkijat jahtaavat ja sisältävät yksinkertaisen selityksen myös muista mittareista.

ensinnäkin, tarkastelkaamme seuraavaa sekamatriisia. Mikä on mallin tarkkuus?,

Erittäin helposti, huomaat, että tarkkuus tämä malli on erittäin korkea, on 99,9%!! Vau! Olet lyönyt jättipotin ja Graalin maljan (*huuda ja juokse ympäri huonetta, pumppaamalla nyrkki ilmaan useita kertoja*)!

mutta….(No tiedät, että tämä tulee oikein?) entä jos mainitsisin, että positiivinen täällä on itse asiassa joku, joka on sairas ja kantaa virusta, joka voi levitä hyvin nopeasti?, Tai positiivinen tässä on petosjuttu? Tai positiivinen tässä edustaa terroristia, että malli sanoo olevansa ei-terroristi? Tajuat Kyllä. Mis-luokitellun todellisen positiivisen (tai väärän negatiivisen) kustannukset ovat tässä tapauksessa erittäin korkeat näissä kolmessa esittämässäni tilanteessa.

OK, niin nyt tajusin, että tarkkuus ei ole be-kaikki ja lopussa kaikki malli metrinen käyttää, kun valitsemalla paras malli…mitä nyt?

saanen esitellä kaksi uutta tietoja (jos et ole kuullut siitä, ja jos et, ehkä vain huumoria minua hieman ja jatkaa lukemista?, :D:)

Joten jos katsot Wikipedia, näet, että laskentakaava Tarkkuus ja Muistaa, on seuraava:

minäpä laitan tänne lisätietoa.

Anna minun laittaa confusion matrix ja sen osia.

Tarkasti

– Hienoa!, Tarkastelkaamme nyt ensin tarkkuutta.

Mitä tehdä, huomaat, että nimittäjä? Nimittäjä on itse asiassa koko ennustettu positiivinen!, So the formula becomes

True Positive + False Positive = Total Predicted Positive

Immediately, you can see that Precision talks about how precise/accurate your model is out of those predicted positive, how many of them are actual positive.,

tarkkuus on hyvä mittari määrittää, kun väärän positiivisen kustannukset ovat suuret. Esimerkiksi sähköpostin roskapostin tunnistus. Sähköpostin roskapostin havaitsemisessa väärä positiivinen tarkoittaa sitä, että roskapostiksi (ennakoiduksi roskapostiksi) on tunnistettu sähköposti, joka ei ole roskapostia (varsinainen negatiivinen). Sähköpostin käyttäjä voi menettää tärkeitä sähköposteja, jos tarkkuus ei ole korkea roskapostin tunnistus malli.

Recall

joten Soveltakaamme samaa logiikkaa takaisinkutsuun. Muista, miten takaisinkutsu lasketaan.,

True Positive + False Negative = Actual Positive

There you go! So Recall actually calculates how many of the Actual Positives our model capture through labeling it as Positive (True Positive)., Soveltamalla samaa ymmärrystä, tiedämme, että takaisinkutsu on malli metriikka käytämme valita paras malli, kun on korkea hinta liittyy vääriä negatiivinen.

esimerkiksi petosten havaitsemisessa tai sairaiden potilaiden havaitsemisessa. Jos petollinen liiketoimi (todellinen positiivinen) ennustetaan ei-vilpilliseksi (ennustettu negatiivinen), seuraukset voivat olla pankille erittäin huonot.

samoin sairaiden potilaiden havaitsemisessa. Jos sairas potilas (todellinen positiivinen) menee testin läpi ja ennustetaan ei sairas (ennustettu negatiivinen)., Virheelliseen negatiivisuuteen liittyvät kustannukset ovat erittäin korkeat, jos sairaus tarttuu.

F1-Pisteet

Nyt, jos olet lukenut paljon muita kirjallisuutta Tarkkuus ja Muistaa, et voi välttää toista toimenpide, F1, joka on tehtävä Tarkasti ja Muistaa. Katsot Wikipedia, kaava on seuraava:

F1-Pisteet on tarpeen, kun haluat etsiä tasapaino Tarkkuus ja Muistaa., Right…so mikä on F1-pisteiden ja tarkkuuden ero sitten? Olemme aiemmin nähneet, että tarkkuus voi olla suurelta osin myötävaikuttanut suuri määrä Totta, Negatiivit, joka useimmissa liiketoiminnan olosuhteissa, emme keskittyä paljon ottaa huomioon, että vääriä Negatiivisia ja Vääriä Positiivisia, yleensä on liiketoiminnan kustannukset (aineelliset & aineettomat) näin F1-Pisteet voisi olla parempi keino käyttää, jos meidän täytyy löytää tasapaino Tarkkuus ja Muistaa, JA siellä on epätasainen-luokan jakelu (suuri määrä Todellista Negatiivit).,

toivon, että selvitys auttaa niitä, alkaa Data Science ja työskentelee Luokitus ongelmia, että Tarkkuus ei aina ole metrinen valita paras malli.

Huomautus: harkitse uutiskirjeeni tilaamista tai suuntaa viimeisimmälle sivustolleni.

toivotan kaikille lukijoille hauskaa datatieteen oppimismatkaa.

Vastaa

Sähköpostiosoitettasi ei julkaista. Pakolliset kentät on merkitty *