Utoljára frissítve: November 5, 2019
A Sűrűségbecslés az a probléma, hogy becsljük a valószínűségi eloszlást egy problématartományból származó megfigyelések mintájára.
számos módszer létezik a sűrűségbecslés megoldására, bár a gépi tanulás területén alkalmazott közös keret a maximális valószínűségbecslés., A legnagyobb valószínűségbecslés magában foglalja a valószínűségi függvény meghatározását az adatminta valószínűségi eloszlási és eloszlási paraméterek alapján történő megfigyelésének feltételes valószínűségének kiszámításához. Ez a megközelítés lehet használni, hogy keressen egy helyet a lehetséges eloszlások, paraméterek.,
Ez a rugalmas valószínűségi keretrendszer számos gépi tanulási algoritmus alapját is biztosítja, beleértve olyan fontos módszereket, mint a lineáris regresszió és a logisztikus regresszió a numerikus értékek és osztálycímkék előrejelzéséhez, de általánosabban a mesterséges neurális hálózatok mély tanulásához.
ebben a bejegyzésben felfedez egy szelíd bevezetést a maximális valószínűség becsléséhez.
miután elolvasta ezt a bejegyzést, tudni fogja:
- a maximális valószínűségi becslés valószínűségi keret a sűrűségbecslés problémájának megoldására.,
- magában foglalja a valószínűségi függvény maximalizálását annak érdekében, hogy megtaláljuk a megfigyelt adatokat legjobban magyarázó valószínűségi eloszlást és paramétereket.
- keretrendszert biztosít a prediktív modellezéshez a gépi tanulásban, ahol a modellparaméterek megtalálása optimalizálási problémaként definiálható.
Kick-start your project with my new book Probability for Machine Learning, including step-by-step tutorials and the Python source code files for all examples.
kezdjük.,
A Gentle Introduction to Maximum Likelihood Estimation for Machine Learning
Photo by Guilhem Vellut, some rights reserved.
Áttekintés
Ez a bemutató három részre oszlik; ezek a következők:
- Probléma Valószínűség-Sűrűség Becslési
- Maximum likelihood Becslés
- Kapcsolat Gépi Tanulás
Probléma Valószínűség-Sűrűség Becslési
Egy közös modellezési probléma magában foglalja, hogy a becslés egy közös valószínűség-eloszlási egy adatkészlet.,
például adott egy megfigyelési mintát (X) egy tartományból (x1, x2, x3,…, xn), ahol minden megfigyelés a tartománytól függetlenül, azonos valószínűségi eloszlással (úgynevezett független és azonos eloszlású, I.I.d., vagy ahhoz közel) történik.
A Sűrűségbecslés magában foglalja a valószínűségeloszlási függvény és az eloszlás paramétereinek kiválasztását, amelyek a legjobban magyarázzák a megfigyelt adatok közös valószínűségi eloszlását (X).
- hogyan választja ki a valószínűségeloszlás függvényt?,
- hogyan választja ki a valószínűségi eloszlási függvény paramétereit?
Ez a probléma nagyobb kihívást jelent, mivel a populációból vett minta (X) kicsi, és zajjal rendelkezik, ami azt jelenti, hogy a becsült valószínűségi sűrűségfüggvény és paraméterei bármilyen értékelésének hibája lesz.
számos módszer létezik a probléma megoldására, bár két közös megközelítés:
- Maximum A Posteriori (térkép), Bayes-módszer.
- maximális valószínűségi becslés (mle), frekventista módszer.,
a fő különbség az, hogy az MLE feltételezi, hogy minden megoldás egyformán valószínű előzetesen, míg a MAP lehetővé teszi a megoldás formájával kapcsolatos előzetes információk hasznosítását.
ebben a bejegyzésben közelebbről megvizsgáljuk az MLE módszert és annak kapcsolatát az alkalmazott gépi tanulással.
szeretné megtanulni a gépi tanulás valószínűségét
vegye be az ingyenes 7 napos e-mail összeomlási tanfolyamot most (mintakóddal).
kattintson a regisztrációhoz, valamint kap egy ingyenes pdf Ebook változata a tanfolyam.,
töltse le ingyenes Mini-tanfolyamát
maximális valószínűségi becslés
a valószínűségi sűrűség becslésére szolgáló egyik megoldást maximális Valószínűségbecslésnek vagy röviden mle-nek nevezik.
A maximális Valószínűségbecslés magában foglalja a probléma optimalizálási vagy keresési problémaként történő kezelését, ahol olyan paraméterkészletet keresünk, amely a legjobban illeszkedik az adatminta (X) közös valószínűségéhez.,
először magában foglalja a Theta nevű paraméter meghatározását, amely meghatározza mind a valószínűségi sűrűségfüggvény kiválasztását, mind az eloszlás paramétereit. Lehet numerikus értékek vektora, amelynek értékei simán változnak, és különböző valószínűségi eloszlásokra és azok paramétereire térképezhetők fel.,
A Maximum likelihood Becslés, azt szeretném, hogy maximalizálja annak a valószínűségét, hogy az adatokat a közös valószínűségi eloszlás adott egy konkrét valószínűségi eloszlás, valamint a paraméterek, kijelentette, hivatalosan, mint:
- P(X | theta)
Ez a feltételes valószínűség gyakran kijelentette, használja a pontosvesszőt (;) jelölés helyett, bár jelölés ( | ), mert theta nem véletlen változó, de ehelyett egy ismeretlen paraméter., Például:
- P(X ; theta)
vagy
- p(x1, x2, x3, …, xn ; theta)
Ez a feltételes valószínűség az adatoknak a modellparaméterek figyelembevételével történő megfigyelésének valószínűségére utal, és az L() jelöléssel írva a valószínűségi függvény jelölésére. Például:
- L(X ; theta)
A cél a Maximum likelihood Becslés az, hogy megtaláljuk a beállított paraméterek (theta), hogy maximalizálja a valószínűsége funkció, pl. eredmény a legnagyobb valószínűség értéket.,
- maximalizálja az L(X ; theta)
kicsomagolhatjuk a valószínűségi függvény által kiszámított feltételes valószínűséget.
tekintettel arra, hogy a minta n példákból áll, ezt a megfigyelt adatminták közös valószínűségének képezhetjük x1, x2, x3,…, xn X-ben, figyelembe véve a valószínűségi eloszlási paramétereket (theta).
- L(x1, x2, x3, …, xn ; theta)
A közös valószínűség-eloszlási lehet újra, mint a szorzás a feltételes valószínűség megfigyelésére minden példát adott az eloszlás paramétereit.,
- i-n termék P(xi; theta)
sok kis valószínűség szorzata numerikusan instabil lehet a gyakorlatban, ezért gyakori, hogy ezt a problémát a modellparaméterek figyelembevételével az egyes példák megfigyelésének log feltételes valószínűségeinek összegeként újra kell értelmezni.
- sum I-n log(p (xi; theta))
ahol log base-e nevű természetes logaritmus általánosan használt.
Ez a termék számos valószínűségnél kényelmetlen lehet, hogy hajlamos a numerikus aluláramlásra., Egy kényelmesebb, de egyenértékű optimalizálási probléma elérése érdekében megfigyeljük, hogy a valószínűség logaritmusának felvétele nem változtatja meg az arg max értékét, hanem kényelmesen átalakítja a terméket
— 132.oldal, Deep Learning, 2016.
tekintettel a log gyakori használatára a valószínűségi függvényben, általában log-valószínűségi függvénynek nevezik.
az optimalizálási problémákban gyakori, hogy inkább a költségfunkciót minimalizálják, mint maximalizálják., Ezért a log-valószínűség függvény negatívját használják, amelyet általában negatív Log-valószínűség (NLL) függvénynek neveznek.
- minimize-sum I-n log(p (xi; theta))
a szoftverben gyakran mindkettőt a költségfüggvény minimalizálásának nevezzük. A maximális valószínűség tehát a negatív log-valószínűség (NLL) minimalizálásává válik …
— Page 133, Deep Learning, 2016.
kapcsolat a gépi tanulással
Ez a sűrűségbecslés problémája közvetlenül kapcsolódik az alkalmazott gépi tanuláshoz.,
képezhetjük a gépi tanulási modell illesztésének problémáját, mint a valószínűségi sűrűség becslésének problémáját. Pontosabban, a modell-és modellparaméterek megválasztását h modellezési hipotézisnek nevezik, és a probléma magában foglalja a h megtalálását, amely a legjobban magyarázza az X.
- p(X ; h)
adatokat, ezért megtaláljuk azt a modellezési hipotézist, amely maximalizálja a valószínűségi funkciót.,
- maximalizálja az L(X ; h)
vagy, teljesebben:
- maximalizálja az i-n log(p(xi ; h)) összeget
Ez biztosítja az alapot egy adatkészlet valószínűségi sűrűségének becsléséhez, amelyet általában nem felügyelt gépi tanulási algoritmusokban használnak; például:
- Klaszterező algoritmusok.
a várt log közös valószínűség mint kulcsfontosságú mennyiség a rejtett változókkal rendelkező valószínűségi modell tanulásához jobban ismert az ünnepelt” elvárás maximalizálása ” vagy EM algoritmus összefüggésében.,
— Page 365, Data Mining: Practical Machine Learning Tools and Techniques, 4th edition, 2016.
a maximális Valószínűségbecslési keretrendszer szintén hasznos eszköz a felügyelt gépi tanuláshoz.
Ez olyan adatokra vonatkozik, ahol bemeneti és kimeneti változók vannak, ahol a kimeneti variáció lehet numerikus érték vagy osztálycímke regresszió és osztályozási prediktív modellezés esetén visszamenőleges hatállyal.
ezt állíthatjuk a kimenet feltételes valószínűségének (y), tekintettel a bemenetre (X), figyelembe véve a modellezési hipotézist (h).,
- maximalizálja az L(y/X ; h)
vagy, teljesebben:
- maximalizálja az i-n log összeget(p(yi/xi ; h))
a maximális valószínűségi becslés könnyen általánosítható arra az esetre, ha célunk egy P(y / x ; theta) feltételes valószínűség becslése érdekében megjósolni y adott x. ez valójában a leggyakoribb helyzet, mert ez képezi az alapját a legtöbb felügyelt tanulás.
— Page 133, Deep Learning, 2016.,
Ez azt jelenti, hogy ugyanaz a maximális Valószínűségbecslési keretrendszer, amelyet általában a sűrűségbecsléshez használnak, használható felügyelt tanulási modell és paraméterek megtalálására.
Ez az alapja az alapvető lineáris modellezési technikák, mint például:
- lineáris regresszió, előrejelzésére numerikus értéket.
- logisztikus regresszió, bináris osztályozáshoz.
lineáris regresszió esetén a modell egy vonalra van korlátozva, és magában foglalja a megfigyelt adatokhoz legjobban illeszkedő sor együtthatóinak megtalálását., Szerencsére ez a probléma analitikusan megoldható (pl. közvetlenül lineáris algebrával).
logisztikai regresszió esetén a modell meghatároz egy sort, amely magában foglalja az osztályokat legjobban elválasztó vonal együtthatóinak meghatározását. Ezt nem lehet analitikusan megoldani, gyakran úgy, hogy a lehetséges együttható értékek helyét egy hatékony optimalizálási algoritmus, például a BFGS algoritmus vagy változatok segítségével keressük meg.
mindkét módszer kevésbé hatékonyan megoldható egy általánosabb optimalizálási algoritmus, például sztochasztikus gradiens leereszkedés segítségével.,
valójában a legtöbb gépi tanulási modellt a maximális valószínűségbecslési keretrendszer keretezi, így hasznos és következetes módon közelíthetjük meg a prediktív modellezést optimalizálási problémaként.
a maximalizálási valószínűségbecslő fontos előnye a gépi tanulásban az, hogy az adatkészlet méretének növekedésével a becslő minősége tovább javul.
további olvasás
Ez a szakasz több erőforrást biztosít a témában, ha mélyebbre szeretne menni.
Könyvek
- 5. fejezet Gépi tanulás alapjai, mély tanulás, 2016.,
- 2. fejezet valószínűségi eloszlások, mintafelismerés és gépi tanulás, 2006.
- 8. fejezet Model Inference and Averaging, the Elements of Statistical Learning, 2016.
- 9. fejezet valószínűségi módszerek, adatbányászat: gyakorlati gépi tanulási eszközök és technikák, 4. kiadás, 2016.
- 22. fejezet maximális valószínűség és klaszterezés, információelmélet, következtetési és tanulási algoritmusok, 2003.
- 8. fejezet Learning distributions, Bayesian Reasoning and Machine Learning, 2011.
cikkek
- maximális valószínűségi becslés, Wikipedia.,
- maximális valószínűség, Wolfram MathWorld.
- valószínűségi függvény, Wikipedia.
- néhány probléma a függvény definíciójának megértésével egy maximális valószínűségi módszerben, Keresztértékelve.
összefoglaló
ebben a bejegyzésben felfedezte a maximális valószínűségbecslés enyhe bevezetését.
konkrétan megtanultad:
- a maximális valószínűségi becslés valószínűségi keret a sűrűségbecslés problémájának megoldására.,
- magában foglalja a valószínűségi függvény maximalizálását annak érdekében, hogy megtaláljuk a megfigyelt adatokat legjobban magyarázó valószínűségi eloszlást és paramétereket.
- keretrendszert biztosít a prediktív modellezéshez a gépi tanulásban, ahol a modellparaméterek megtalálása optimalizálási problémaként definiálható.
van bármilyen kérdése?
tegye fel kérdéseit az alábbi megjegyzésekben, és mindent megteszek, hogy válaszoljak.
kap egy fogantyú valószínűsége Gépi tanulás!,
fejlessze ki a valószínűség megértését
…csak néhány sor python kód
fedezze fel, hogyan az én új Ebook:
valószínűsége Gépi tanulás
Ez biztosítja az önálló tanulmány útmutatók és end-to-end projektek:
Bayes tétel, Bayes optimalizálás, disztribúciók, maximális valószínűsége, Cross-entrópia, kalibráló modellek
és még sok más…
végül kihasználja a bizonytalanságot a projektjeiben
hagyja ki az akadémikusokat. Csak Eredmények.Nézze meg, mi van benne