Gyakran, amikor beszélek szervezetek keres, hogy a gép adatai a tudomány a folyamatok, gyakran felmerül a kérdés, “Hogyan tudom a legpontosabb modell?”. Megkérdeztem: “milyen üzleti kihívást próbálsz megoldani a modell használatával?,”meg fogom kapni a rejtélyes megjelenést, mert az általam feltett kérdés nem igazán válaszol a kérdésükre. Ezután meg kell magyaráznom, hogy miért tettem fel a kérdést, mielőtt elkezdenénk megvizsgálni, hogy a pontosság a ” legjobb “modellt választjuk-e.
tehát azt gondoltam, hogy ebben a blogbejegyzésben elmagyarázom, hogy a pontosságnak nem kell az egyetlen modellmutató – adat, amelyet a tudósok üldöznek, és más metrikák egyszerű magyarázatát is tartalmazzák.
először nézzük meg a következő zavart mátrixot. Mi a pontosság a modell számára?,
pontosság
nagyszerű!, Most először nézzük meg a pontosságot.
div >
mit észlel a nevezőnél? A nevező valójában a teljes előre jelzett pozitív!, So the formula becomes
Immediately, you can see that Precision talks about how precise/accurate your model is out of those predicted positive, how many of them are actual positive.,
A pontosság jó intézkedés annak meghatározására, hogy a hamis pozitív költségek magasak-e. Például az e-mail spam észlelése. Az e-mail spam észlelésekor a hamis pozitív azt jelenti, hogy egy nem spam (tényleges negatív) e-mailt spamnek (előre jelzett spamnek) azonosítottak. Az e-mail felhasználó elveszítheti a fontos e-maileket, ha a pontosság nem magas a spam-észlelési modellnél.
visszahívás
tehát alkalmazzuk ugyanazt a logikát a visszahíváshoz. Emlékezzünk vissza, hogyan számítják ki a visszahívást.,
There you go! So Recall actually calculates how many of the Actual Positives our model capture through labeling it as Positive (True Positive)., Ugyanazt a megértést alkalmazva tudjuk, hogy a visszahívás lesz a modellmutató, amelyet a legjobb modellünk kiválasztásához használunk, ha a hamis negatívhoz magas költség kapcsolódik.
például csalás észlelésekor vagy beteg beteg észlelésekor. Ha egy csalárd tranzakciót (tényleges pozitív) nem csalárdnak (előre jelzett negatívnak) jósolnak, a következmény nagyon rossz lehet a bank számára.
Hasonlóképpen, a beteg észlelésekor. Ha egy beteg beteg (tényleges pozitív) átmegy a teszten, és azt jósolja, hogy nem beteg (várható negatív)., A hamis negatívhoz kapcsolódó költségek rendkívül magasak lesznek, ha a betegség fertőző.
F1 Score
most, ha sok más szakirodalmat olvas a Precizitásról és a visszahívásról, nem kerülheti el a másik mérést, az F1-et, amely a precizitás és a visszahívás függvénye. Nézi a Wikipedia, a képlet a következő:
F1 Pontszám van szükség, ha akarsz keresni az egyensúlyt a között, Pontosság, Emlékszem., Right…so mi a különbség az F1 pontszáma és pontossága között? Korábban láttuk, hogy a pontosságot nagymértékben hozzájárulhatja számos valódi negatív, amelyek a legtöbb üzleti körülmények között nem sokat összpontosítunk, míg a hamis negatív és hamis pozitív általában üzleti költségekkel jár (kézzelfogható & immateriális), így az F1 pontszám jobb intézkedés lehet a felhasználáshoz, ha egyensúlyt kell keresnünk a pontosság és a visszahívás között, és egyenetlen osztályeloszlás van (nagyszámú tényleges negatív).,
remélem, hogy a magyarázat segít azoknak, akik az Adattudományból indulnak, és osztályozási problémákon dolgoznak, hogy a pontosság nem mindig lesz a metrika a legjobb modell kiválasztásához.
Megjegyzés: fontolja meg a hírlevélre való feliratkozást, vagy a legfrissebb webhelyemre való belépést.
minden olvasónak szórakoztató adattudományi tanulási utat kívánok.