
Gyakran, amikor beszélek szervezetek keres, hogy a gép adatai a tudomány a folyamatok, gyakran felmerül a kérdés, “Hogyan tudom a legpontosabb modell?”. Megkérdeztem: “milyen üzleti kihívást próbálsz megoldani a modell használatával?,”meg fogom kapni a rejtélyes megjelenést, mert az általam feltett kérdés nem igazán válaszol a kérdésükre. Ezután meg kell magyaráznom, hogy miért tettem fel a kérdést, mielőtt elkezdenénk megvizsgálni, hogy a pontosság a ” legjobb “modellt választjuk-e.
tehát azt gondoltam, hogy ebben a blogbejegyzésben elmagyarázom, hogy a pontosságnak nem kell az egyetlen modellmutató – adat, amelyet a tudósok üldöznek, és más metrikák egyszerű magyarázatát is tartalmazzák.
először nézzük meg a következő zavart mátrixot. Mi a pontosság a modell számára?,

div >
nagyon könnyen észreveheti, hogy a modell pontossága nagyon magas, 99,9%!! Hűha! Megütötted a főnyereményt és a Szent Grált (*sikíts és szaladj körbe a szobában, többször is pumpáld az öklöd a levegőbe*)!
de….(Nos, tudod, hogy ez jól jön?) mi lenne, ha megemlíteném, hogy a pozitív itt valójában valaki, aki beteg és olyan vírust hordoz, amely nagyon gyorsan terjedhet?, Vagy a pozitív itt csalási ügyet jelent? Vagy a pozitív itt a terrorista, hogy a modell azt mondja, hogy nem terrorista? Nos, érted az ötletet. A költségek, amelyek egy rosszul Osztályozott tényleges pozitív (vagy hamis negatív) nagyon magas itt ebben a három körülmények között, hogy én jelentette.
OK, tehát most rájöttél, hogy a pontosság nem a legjobb modell kiválasztásakor használható be-all and end-all modell metrika … most mi?
hadd mutassak be két új mutatót (ha még nem hallottál róla, és ha igen, talán csak viccelj egy kicsit, és folytasd az olvasást?, :D)
tehát ha megnézzük a Wikipédiát, látni fogjuk, hogy a precizitás és a visszahívás kiszámításának képlete a következő:

div >
hadd tegyem ide a zavart mátrixot és annak részeit.

pontosság
nagyszerű!, Most először nézzük meg a pontosságot.

div >
mit észlel a nevezőnél? A nevező valójában a teljes előre jelzett pozitív!, So the formula becomes


Immediately, you can see that Precision talks about how precise/accurate your model is out of those predicted positive, how many of them are actual positive.,
A pontosság jó intézkedés annak meghatározására, hogy a hamis pozitív költségek magasak-e. Például az e-mail spam észlelése. Az e-mail spam észlelésekor a hamis pozitív azt jelenti, hogy egy nem spam (tényleges negatív) e-mailt spamnek (előre jelzett spamnek) azonosítottak. Az e-mail felhasználó elveszítheti a fontos e-maileket, ha a pontosság nem magas a spam-észlelési modellnél.
visszahívás
tehát alkalmazzuk ugyanazt a logikát a visszahíváshoz. Emlékezzünk vissza, hogyan számítják ki a visszahívást.,


There you go! So Recall actually calculates how many of the Actual Positives our model capture through labeling it as Positive (True Positive)., Ugyanazt a megértést alkalmazva tudjuk, hogy a visszahívás lesz a modellmutató, amelyet a legjobb modellünk kiválasztásához használunk, ha a hamis negatívhoz magas költség kapcsolódik.
például csalás észlelésekor vagy beteg beteg észlelésekor. Ha egy csalárd tranzakciót (tényleges pozitív) nem csalárdnak (előre jelzett negatívnak) jósolnak, a következmény nagyon rossz lehet a bank számára.
Hasonlóképpen, a beteg észlelésekor. Ha egy beteg beteg (tényleges pozitív) átmegy a teszten, és azt jósolja, hogy nem beteg (várható negatív)., A hamis negatívhoz kapcsolódó költségek rendkívül magasak lesznek, ha a betegség fertőző.
F1 Score
most, ha sok más szakirodalmat olvas a Precizitásról és a visszahívásról, nem kerülheti el a másik mérést, az F1-et, amely a precizitás és a visszahívás függvénye. Nézi a Wikipedia, a képlet a következő:

F1 Pontszám van szükség, ha akarsz keresni az egyensúlyt a között, Pontosság, Emlékszem., Right…so mi a különbség az F1 pontszáma és pontossága között? Korábban láttuk, hogy a pontosságot nagymértékben hozzájárulhatja számos valódi negatív, amelyek a legtöbb üzleti körülmények között nem sokat összpontosítunk, míg a hamis negatív és hamis pozitív általában üzleti költségekkel jár (kézzelfogható & immateriális), így az F1 pontszám jobb intézkedés lehet a felhasználáshoz, ha egyensúlyt kell keresnünk a pontosság és a visszahívás között, és egyenetlen osztályeloszlás van (nagyszámú tényleges negatív).,
remélem, hogy a magyarázat segít azoknak, akik az Adattudományból indulnak, és osztályozási problémákon dolgoznak, hogy a pontosság nem mindig lesz a metrika a legjobb modell kiválasztásához.
Megjegyzés: fontolja meg a hírlevélre való feliratkozást, vagy a legfrissebb webhelyemre való belépést.
minden olvasónak szórakoztató adattudományi tanulási utat kívánok.