Lempeä Johdatus Suurimman uskottavuuden Estimointi Koneen Oppimiseen

Tweet Jaa Jaa

Päivitetty Viimeksi 5. marraskuuta 2019

Density estimation on ongelma arvioida todennäköisyysjakauman varten näyte huomautukset ongelma verkkotunnuksen.

tiheyden estimoinnissa on monia tekniikoita, vaikka koko koneoppimisen alalla käytetty yhteinen kehys on maksimaalinen todennäköisyysarvio., Suurimman uskottavuuden estimointi liittyy määritteleminen todennäköisyyden toiminto laskemalla ehdollinen todennäköisyys tarkkailemalla tiedot näytteen annetaan todennäköisyys jakelu ja jakelu parametrit. Tällä lähestymistavalla voidaan etsiä tilaa mahdollisille jakaumille ja parametreille.,

Tämä joustava probabilistinen framework tarjoaa myös perusta monille kone oppimisen algoritmeja, mukaan lukien tärkeitä menetelmiä, kuten lineaarista regressiota ja logistinen regressio ennustaa numeerisia arvoja ja luokka tarrat vastaavasti, mutta myös yleisemmin deep learning neuroverkkoja.

tässä viestissä löydät lempeän johdannon maksimaaliseen todennäköisyysarvioon.

Kun luet tätä viestiä, sinun tulee tietää:

Suurimman uskottavuuden Estimointi on probabilistinen framework ongelman ratkaisemiseksi tiheyden estimoinnin.,
siihen kuuluu todennäköisyysfunktion maksimointi, jotta löydetään todennäköisyysjakauma ja parametrit, jotka parhaiten selittävät havaitut tiedot.
Se tarjoaa puitteet ennustava mallinnus machine learning jos löytää mallin parametrit voidaan kehystetty optimointi ongelma.

Kick-aloittaa projektin, jossa minun uusi kirja Todennäköisyys Kone Oppiminen, mukaan lukien askel-askeleelta opetusohjelmia ja Python lähdekoodi tiedostot kaikki esimerkkejä.

aloitetaan.,

Hellävarainen Esittely Suurimman uskottavuuden Estimointi Koneen Oppimiseen
Kuva Guilhem Vellut, jotkut oikeudet pidätetään.

Yleistä

Tämä opetusohjelma on jaettu kolmeen osaan; ne ovat:

Ongelma Probability Density Estimation
Suurimman uskottavuuden Estimointi
Suhde Machine Learning

Ongelma Probability Density Estimation

yhteinen mallinnus ongelma liittyy miten arvioida yhteisen todennäköisyysjakauman datajoukolle.,

esimerkiksi, koska näytteen havainto (X) toimialueelta (x1, x2, x3, …, xn), missä kukin havainto on laadittu itsenäisesti toimialueen kanssa saman todennäköisyysjakauman (ns. riippumaton ja identtisesti jakautunut, en.en.d. tai lähellä sitä).

Density estimation valitaan todennäköisyyden kertymäfunktio ja parametrit, että jakelu, joka parhaiten selittää yhteisen todennäköisyysjakauman havaittu data (X).

miten todennäköisyysjakaumafunktio valitaan?,
miten todennäköisyysjakaumafunktion parametrit valitaan?

Tämä ongelma on haastavampaa kuin näyte (X) peräisin väestöstä on pieni, ja se on melua, mikä tarkoittaa, että mikä tahansa arvio arvioitu todennäköisyys tiheys funktio ja sen parametrit on jokin virhe.

tämän ongelman ratkaisemiseen on monia tekniikoita, joskin kaksi yhteistä lähestymistapaa ovat:

Maximum a Posteriori (kartta), Bayesilainen menetelmä.
suurimman todennäköisyyden estimointi (MLE), frequentist method.,

tärkein ero on, että MLE oletetaan, että kaikki ratkaisut ovat yhtä todennäköisesti etukäteen, kun taas KARTAN avulla ennen tietoa muodossa ratkaisu voidaan valjastaa.

tässä viestissä tarkastelemme tarkemmin MLE-menetelmää ja sen suhdetta sovellettuun koneoppimiseen.

Haluatko Oppia Todennäköisyys koneoppimisen

Ottaa vapaa 7-päivän sähköposti crash course nyt (näytteen koodi).

klikkaa ilmoittautuaksesi ja saat myös ilmaisen PDF Ebook-version kurssista.,

Lataa ILMAINEN Mini-Kurssi

Suurimman uskottavuuden Estimointi

Yksi ratkaisu todennäköisyyden tiheysfunktiota kutsutaan Suurimman uskottavuuden Estimointi, tai MLE lyhyitä.

Suurimman uskottavuuden Estimointi liittyy hoitoon ongelma, koska optimointi tai etsi ongelma, jossa pyrimme joukko parametreja, joita johtaa parhaiten sopii yhteisen todennäköisyys tietojen näyte (X).,

ensin määritellään Theta-parametri, joka määrittelee sekä todennäköisyystiheysfunktion valinnan että sen jakauman parametrit. Se voi olla vektori numeerisia arvoja, joiden arvot muuttuvat sujuvasti ja kartta eri todennäköisyysjakaumat ja niiden parametrit.,

Suurimman uskottavuuden Estimointi, haluamme maksimoida todennäköisyys tarkkailemalla tietoja yhteisen todennäköisyysjakauman tietyn todennäköisyysjakauman ja sen parametrit, totesi virallisesti, niin:

P(X | theta)

Tämä ehdollinen todennäköisyys on usein todennut, käyttäen puolipistettä (;) notaatio sijaan, baari merkintätapa ( | ), koska theta ei ole satunnainen muuttuja, mutta sen sijaan tuntematon parametri., Esimerkiksi:

P(X ; theta)

tai

P(x1, x2, x3, …, xn ; theta)

Tämän tuloksena ehdollisen todennäköisyyden, kutsutaan todennäköisyyden tarkkailemalla tietoja, koska mallin parametrit ja kirjoitettu käyttäen merkintää L() kuvaamaan todennäköisyyden funktio. Esimerkiksi:

L(X ; theta)

tavoitteena on Suurimman uskottavuuden Estimointi on löytää joukko parametreja (theta), että maksimoida todennäköisyys toiminto, esim. aiheuttaa suurimman todennäköisyyden arvo.,

maksimoi L(X ; theta)

– Voimme purkaa ehdollinen todennäköisyys lasketaan todennäköisyys toiminto.

ottaen Huomioon, että näyte koostuu n esimerkkiä, emme voi runko tämä yhteinen todennäköisyys sille, että havaittu data näytteet x1, x2, x3, …, xn vuonna X, koska todennäköisyysjakauman parametrit (theta).

L(x1, x2, x3, …, xn ; theta)

yhteinen todennäköisyysjakauma voidaan oikaistu kuin kertomalla ehdollinen todennäköisyys tarkkailla kunkin esimerkissä jakauman parametrit.,

tuote i n P(xi ; theta)

Kertomalla monet pienet todennäköisyydet yhdessä voidaan numeerisesti epästabiili käytännössä, siis, on yhteinen toistaa tämän ongelman, koska summa kirjautuu ehdolliset todennäköisyydet tarkkailla jokainen esimerkki antaa mallin parametrit.

summa i-n log(P(xi ; theta))

Missä log jossa pohja-e kutsutaan luonnollinen logaritmi on yleisesti käytetty.

Tämä tuote yli monet todennäköisyyksiä voi olla hankalaa, se on altis numeerinen alivuoto., Saada enemmän kätevä, mutta vastaava optimointiongelma, huomaamme, että otetaan logaritmi todennäköisyys ei muutu sen arg max, mutta ei kätevästi muuttaa tuotteen summa

— Sivulla 132, Syvä Oppiminen, 2016.

Koska usein käyttää kirjaudu sisään todennäköisyys toiminto, se on yleisesti kutsutaan log-uskottavuusfunktio.

optimointiongelmissa on tavallista mieluummin minimoida kustannustoiminto kuin maksimoida se., Sen vuoksi käytetään log-todennäköisyysfunktion negatiivisuutta, jota kutsutaan yleisesti negatiiviseksi Log-Todennäköisyysfunktioksi (NLL).

pienennä-summa i-n log(P(xi ; theta))

ohjelmisto, me usein lause sekä minimoimalla kustannus-toiminto. Suurin todennäköisyys tulee näin minimointi negatiivinen log-todennäköisyys (NLL) …

— Sivulla 133, Syvä Oppiminen, 2016.

Suhde Kone Oppiminen

Tämä ongelma tiheyden estimoinnin liittyy suoraan soveltaa koneoppimisen.,

voimme lavastaa koneoppimismallin asentamisen ongelmaksi todennäköisyystiheyden estimoinnin. Erityisesti valinta-malli ja mallin parametrit kutsutaan mallinnus hypoteesin h, ja ongelma liittyy löytäminen h, joka parhaiten selittää tiedot X.

P(X ; h)

näin ollen Voimme löytää mallinnus hypoteesi, joka maksimoi todennäköisyyden funktio.,

maksimoi L(X ; h)

Tai, tarkemmin:

maksimoida summa i-n log(P(xi ; h))

Tämä tarjoaa perustan arvioida todennäköisyys tiheys aineisto, tyypillisesti käytetään ilman valvontaa kone oppimisen algoritmeja, esimerkiksi:

Klusterointi algoritmit.

Käyttäen odotettavissa log yhteinen todennäköisyys keskeisenä määrä oppimisen todennäköisyys malli, jossa piilotettu muuttujat tunnetaan paremmin yhteydessä vietetään ”odotus maksimointi” tai EM-algoritmi.,

— Page 365, Data Mining: Practical Machine Learning Tools and Techniques, 4th edition, 2016.

Suurimman uskottavuuden Estimointi framework on myös hyödyllinen työkalu valvoo koneen oppimiseen.

Tämä koskee tietoja, jos meillä on input-ja output-muuttujien, jossa lähtö satunnaismuuttujan voi olla numeerinen arvo tai luokka lipuke tapauksessa regressio ja luokittelu ennustava mallinnus takautuvasti.

Voimme todeta tämän koska ehdollinen todennäköisyys tuotoksen (y) koska tulon (X) koska mallinnus hypoteesin (h).,

maksimoi L(y|X ; h)

Tai, tarkemmin:

maksimoida summa i-n log(P(yi|xi ; h))

suurimman uskottavuuden estimaattori voi helposti yleistää tapaukseen, jossa tavoitteenamme on arvioida ehdollinen todennäköisyys P(y | x ; theta) jotta voidaan ennustaa y, koska x. Tämä on itse asiassa yleisin tilanne, koska se muodostaa perustan useimmille ohjattua oppimista.

— sivu 133, Deep Learning, 2016.,

Tämä tarkoittaa sitä, että sama Suurimman uskottavuuden Estimointi framework, joka on yleisesti käytetty tiheysfunktiota voidaan löytää valvottu oppimisen malli ja parametrit.

Tämä tarjoaa perustan perustavaa lineaarinen mallinnus tekniikoita, kuten:

Lineaarinen Regressio, ennustamiseen numeerinen arvo.
logistinen regressio, binääriluokitusta varten.

tapauksessa lineaarinen regressio, malli on pakko line ja liittyy löytää joukko kertoimia linja, joka parhaiten sopii havaittu data., Onneksi tämä ongelma voidaan ratkaista analyyttisesti (esimerkiksi suoraan lineaarialgebran avulla).

tapauksessa logistinen regressio, malli määrittelee line ja liittyy löytää joukko kertoimia linja, joka parhaiten erottaa luokat. Tätä ei voida ratkaista analyyttisesti, ja se on usein ratkaista etsimällä tilaa mahdollista kertoimien arvoja käyttäen tehokas optimointi algoritmi, kuten BFGS algoritmi tai variantteja.

molemmat menetelmät voidaan myös ratkaista tehottomammin käyttämällä yleisempää optimointialgoritmia, kuten stokastista gradientin laskeutumista.,

Itse asiassa, useimmat koneoppimisen malleja voidaan muotoilla nojalla suurimman uskottavuuden estimointi framework, joka tarjoaa hyödyllisiä ja johdonmukainen tapa lähestyä ennustava mallinnus optimointi ongelma.

tärkeä hyöty maksimoida todennäköisyyden estimaattori koneoppimisen on, että koko aineisto kasvaa, laadun arviointityökalu edelleen parantaa.

Lisää lukemista

Tämä osio tarjoaa lisää resursseja aiheesta, Jos haluat mennä syvemmälle.

Kirjoja

Luku 5 koneoppimisen Perusteet, Syvä Oppiminen, 2016.,
Luku 2 todennäköisyysjakauma, Kuviotunnistus ja koneoppiminen, 2006.
Chapter 8 Model Inference and Averaging, the Elements of Statistical Learning, 2016.
Chapter 9 Probabilistic methods, Data Mining: Practical Machine Learning Tools and Techniques, 4th edition, 2016.
Chapter 22 Maximum likely and Clustering, Information Theory, Inference and Learning Algorithms, 2003.
Chapter 8 Learning distributions, Bayesilainen päättely ja koneoppiminen, 2011.

Artikkelit

Suurimman uskottavuuden estimointi, Wikipedia.,
Suurin Todennäköisyys, Wolfram MathWorld.
Todennäköisyysfunktio, Wikipedia.
jotkut ongelmat ymmärtävät funktion määritelmän suurimmalla todennäköisyydellä, Ristivalidoidulla menetelmällä.

Yhteenveto

tässä viestissä havaitsitte lievän johdannon suurimman todennäköisyyden arviointiin.

Erityisesti, opit:

Suurimman uskottavuuden Estimointi on probabilistinen framework ongelman ratkaisemiseksi tiheyden estimoinnin.,
siihen kuuluu todennäköisyysfunktion maksimointi, jotta löydetään todennäköisyysjakauma ja parametrit, jotka parhaiten selittävät havaitut tiedot.
Se tarjoaa puitteet ennustava mallinnus machine learning jos löytää mallin parametrit voidaan kehystetty optimointi ongelma.

onko sinulla kysyttävää?
kysy kysymyksesi alla olevissa kommenteissa ja teen parhaani vastatakseni.

Saada Käsitellä Todennäköisyys koneoppimisen!,

Kehittää Ymmärrystä Todennäköisyys

…vain muutaman rivin python-koodin

selvittää, miten minun uusi Ebook:
Todennäköisyys koneoppimisen

Se tarjoaa self-opinto-oppaat ja end-to-end hankkeita:
Bayes Lause, Bayes-Optimointi, Jakaumat, Suurin Todennäköisyys, Risti-Entropia, Kalibrointi Mallit
ja paljon muuta…

vihdoin valjastetaan epävarmuus projekteihin

Skip the Academics. Vain Tuloksia.Nähdä, Mitä Sisällä