Ultima actualizare în noiembrie 5, 2019
estimarea densității este problema estimării distribuției probabilității pentru un eșantion de observații dintr-un domeniu problematic.există multe tehnici pentru rezolvarea estimării densității, deși un cadru comun utilizat în întregul domeniu al învățării automate este estimarea probabilității maxime., Estimarea probabilității maxime implică definirea unei funcții de probabilitate pentru calcularea probabilității condiționate de observare a eșantionului de date având în vedere o distribuție de probabilitate și parametrii de distribuție. Această abordare poate fi utilizată pentru a căuta un spațiu de posibile distribuții și parametri.,acest cadru probabilistic flexibil oferă, de asemenea, fundamentul multor algoritmi de învățare automată, inclusiv metode importante, cum ar fi regresia liniară și regresia logistică pentru prezicerea valorilor numerice și, respectiv, a etichetelor de clasă, dar și mai general pentru rețelele neuronale artificiale de învățare profundă.
în acest post, veți descoperi o introducere blândă la estimarea probabilității maxime.după ce ați citit acest post, veți ști:
- estimarea probabilității maxime este un cadru probabilistic pentru rezolvarea problemei estimării densității.,
- aceasta implică maximizarea unei funcții de probabilitate pentru a găsi distribuția de probabilitate și parametrii care explică cel mai bine datele observate.
- oferă un cadru pentru modelarea predictivă în învățarea automată, unde găsirea parametrilor modelului poate fi încadrată ca o problemă de optimizare.
începeți proiectul cu noua mea carte Probability for Machine Learning, inclusiv tutoriale pas cu pas și fișierele de cod sursă Python pentru toate exemplele.
Să începem.,
O Introducere sumară în Maximum Likelihood Estimation pentru Masina de Învățare
Photo by Guilhem Vellut, unele drepturi rezervate.acest tutorial este împărțit în trei părți; acestea sunt:
- problema estimării densității de probabilitate
- estimarea probabilității maxime
- relația cu învățarea automată
problema estimării densității de probabilitate
o problemă comună de modelare implică modul de estimare a unei distribuții comune de probabilitate pentru un set de date.,
De exemplu, având un eșantion de observare (X) dintr-un domeniu (x1, x2, x3, …, xn), unde fiecare observație este atras în mod independent de domeniu, cu aceeași distribuție de probabilitate (așa-numitele independente și identic distribuite, eu.eu.d., sau aproape de ea).estimarea densității implică selectarea unei funcții de distribuție a probabilității și a parametrilor acelei distribuții care explică cel mai bine distribuția probabilității comune a datelor observate (X).
- cum alegeți funcția de distribuție a probabilității?,
- cum alegeți parametrii pentru funcția de distribuție a probabilității?această problemă este mai dificilă, deoarece eșantionul (X) extras din populație este mic și are zgomot, ceea ce înseamnă că orice evaluare a unei funcții de densitate de probabilitate estimată și a parametrilor acesteia va avea o anumită eroare.există multe tehnici pentru rezolvarea acestei probleme, deși două abordări comune sunt:
- Maxim a Posteriori (MAP), O metodă Bayesiană.
- estimarea probabilității maxime (MLE), metoda frequentist.,principala diferență este că MLE presupune că toate soluțiile sunt la fel de probabile în prealabil, în timp ce MAP permite ca informațiile prealabile despre forma soluției să fie valorificate.
în acest post, vom arunca o privire mai atentă asupra metodei MLE și a relației sale cu învățarea automată aplicată.
doriți să aflați probabilitatea pentru învățarea în mașină
luați acum cursul meu gratuit de e-mail de 7 zile (cu cod de probă).Faceți clic pentru a vă înscrie și pentru a obține, de asemenea, o versiune gratuită de Ebook PDF a cursului.,
descărcați gratuit Mini-curs
estimarea probabilității maxime
o soluție pentru estimarea densității probabilității este denumită estimarea probabilității maxime sau MLE pe scurt.estimarea probabilității maxime implică tratarea problemei ca o problemă de optimizare sau de căutare, unde căutăm un set de parametri care să aibă ca rezultat cea mai potrivită pentru Probabilitatea comună a eșantionului de date (X).,în primul rând, implică definirea unui parametru numit theta care definește atât alegerea funcției de densitate de probabilitate, cât și parametrii acelei distribuții. Poate fi un vector de valori numerice ale căror valori se schimbă fără probleme și se mapează la diferite distribuții de probabilitate și parametrii lor.,
În Maximum Likelihood Estimation, dorim să maximizeze probabilitatea de a observa datele din comun distribuție de probabilitate având o anumită probabilitate de distribuție și parametrii săi, a declarat în mod oficial ca:
- P(X | theta)
Această probabilitate condiționată adesea este declarat utilizați punct și virgulă (;) notație în loc de bara de notație (|) pentru theta nu este o variabilă aleatoare, dar în loc de un parametru necunoscut., De exemplu:
- P(X ; theta)
sau
- P(x1, x2, x3, …, xn ; theta)
această probabilitate condiționată rezultată este denumită probabilitatea de a observa datele date de parametrii modelului și scrise folosind notația L() pentru a desemna funcția de probabilitate. De exemplu:
- L(X ; theta)
obiectivul estimării probabilității maxime este de a găsi setul de parametri (theta) care maximizează funcția probabilității, de exemplu, rezultă cea mai mare valoare a probabilității.,
- maximizați L (X ; theta)
putem despacheta probabilitatea condiționată calculată de funcția de probabilitate.având în vedere că eșantionul este format din n exemple, putem încadra acest lucru ca probabilitatea comună a probelor de date observate x1, x2, x3, …, xn în X având în vedere parametrii de distribuție a probabilității (theta).
- L(x1, x2, x3, …, xn ; theta)
distribuția probabilității comune poate fi retratată ca înmulțire a probabilității condiționate pentru observarea fiecărui exemplu având în vedere parametrii de distribuție.,înmulțirea multor probabilități mici împreună poate fi instabilă numeric în practică, prin urmare, este comună reafirmarea acestei probleme ca sumă a probabilităților condiționate de jurnal de observare a fiecărui exemplu dat parametrilor modelului.
- sum i to n log(P(xi ; theta))
unde se utilizează în mod obișnuit log cu base-e numit logaritm natural.
acest produs peste multe probabilități poate fi incomod este predispus la underflow numeric., Pentru a obține o problemă de optimizare mai convenabilă, dar echivalentă, observăm că luarea logaritmului probabilității nu își schimbă arg max, ci transformă convenabil un produs într— o sumă
– Page 132, Deep Learning, 2016.având în vedere utilizarea frecventă a log în funcția de probabilitate, este frecvent menționată ca o funcție log-probabilitate.
este obișnuit în problemele de optimizare să preferați să minimalizați funcția de cost, mai degrabă decât să o maximizați., Prin urmare, se folosește negativul funcției log-probabilitate, denumită în general o funcție log-probabilitate negativă (NLL).
- reduce -sum m a n log(P(xi ; theta))
În software-ul, noi de multe ori fraza atât ca minimizarea un cost funcția. Probabilitatea maximă devine astfel minimizarea log-probabilității negative (NLL) …
— Page 133, Deep Learning, 2016.
relația cu învățarea automată
această problemă de estimare a densității este direct legată de învățarea automată aplicată.,putem încadra problema montării unui model de învățare automată ca problemă a estimării densității de probabilitate. Mai exact, alegerea modelului și a parametrilor modelului este menționată ca o ipoteză de modelare h, iar problema implică găsirea h care explică cel mai bine datele X.
- P(X ; h)
prin urmare, putem găsi ipoteza de modelare care maximizează funcția de probabilitate.,
- maximizați L(X ; h)
sau, mai complet:
- maximizați suma i la N log(P(xi ; h))
aceasta oferă baza pentru estimarea densității de probabilitate a unui set de date, utilizat de obicei în algoritmi de învățare automată nesupravegheați; de exemplu:
- algoritmi de grupare.
Utilizarea de așteptat jurnal comun probabilitatea ca o cheie cantitate de învățare într-un model de probabilitate cu variabile ascunse este mai bine cunoscut în contextul sărbătorit „maximizare așteptare” sau algoritmul EM.,
— Page 365, Data Mining: practice Machine Learning Tools and Techniques, ediția a 4-A, 2016.
cadrul de estimare a probabilității maxime este, de asemenea, un instrument util pentru învățarea automată supravegheată.acest lucru se aplică datelor în care avem variabile de intrare și ieșire, unde variata de ieșire poate fi o valoare numerică sau o etichetă de clasă în cazul regresiei și modelării predictive a clasificării retrospectiv.
putem afirma acest lucru ca probabilitatea condiționată a ieșirii (y), având în vedere intrarea (X), având în vedere ipoteza de modelare (h).,
- pentru a maximiza L(y|X ; h)
Sau, mai complet:
- pentru a maximiza suma i la n log(P(yi|xi ; h))
probabilitatea maximă estimator poate fi ușor generalizată pentru cazul în care scopul nostru este de a estima o probabilitate condiționată P(y | x ; theta) în scopul de a prezice y x dat. Aceasta este de fapt cea mai comună situație, deoarece acesta constituie baza pentru cele mai supravegheate de învățare.
— pagina 133, Deep Learning, 2016.,aceasta înseamnă că același cadru de estimare a probabilității maxime care este utilizat în general pentru estimarea densității poate fi utilizat pentru a găsi un model și parametri de învățare supravegheați.
aceasta oferă baza pentru tehnici fundamentale de modelare liniară, cum ar fi:
- regresie liniară, pentru a prezice o valoare numerică.
- regresie logistică, pentru clasificarea binară.în cazul regresiei liniare, modelul este constrâns la o linie și implică găsirea unui set de coeficienți pentru linia care se potrivește cel mai bine datelor observate., Din fericire, această problemă poate fi rezolvată analitic (de exemplu, direct folosind algebra liniară).în cazul regresiei logistice, modelul definește o linie și implică găsirea unui set de coeficienți pentru linia care separă cel mai bine clasele. Acest lucru nu poate fi rezolvat analitic și este adesea rezolvat prin căutarea spațiului posibilelor valori ale coeficienților folosind un algoritm eficient de optimizare, cum ar fi algoritmul BFGS sau variantele.ambele metode pot fi, de asemenea, rezolvate mai puțin eficient folosind un algoritm de optimizare mai general, cum ar fi coborârea gradientului stocastic.,de fapt, majoritatea modelelor de învățare automată pot fi încadrate în cadrul de estimare a probabilității maxime, oferind o modalitate utilă și consecventă de abordare a modelării predictive ca problemă de optimizare.un beneficiu important al estimatorului de probabilitate de maximizare în învățarea automată este că, pe măsură ce mărimea setului de date crește, calitatea estimatorului continuă să se îmbunătățească.
Lectură suplimentară
această secțiune oferă mai multe resurse pe această temă, dacă sunteți în căutarea de a merge mai adânc.
Cărți
- Capitolul 5 bazele învățării automate, învățare profundă, 2016.,Capitolul 2 distribuții de probabilitate, recunoașterea modelelor și învățarea automată, 2006.
- Capitolul 8 Model de inferență și medie, elementele de învățare Statistică, 2016.Capitolul 9 metode probabilistice, Data Mining: practice Machine Learning Tools and Techniques, ediția a 4-A, 2016.Capitolul 22 probabilitatea maximă și Clustering, Teoria informației, inferență și algoritmi de învățare, 2003.Capitolul 8 distribuții de învățare, raționamentul Bayesian și învățarea automată, 2011.
articole
- estimarea probabilității maxime, Wikipedia.,
- probabilitate maximă, Wolfram MathWorld.
- funcția probabilitate, Wikipedia.
- unele probleme înțelegerea definiției unei funcții într-o metodă de probabilitate maximă, CrossValidated.
rezumat
În acest post, ați descoperit o introducere blândă la estimarea probabilității maxime.mai exact, ați învățat:
- estimarea probabilității maxime este un cadru probabilistic pentru rezolvarea problemei estimării densității.,
- aceasta implică maximizarea unei funcții de probabilitate pentru a găsi distribuția de probabilitate și parametrii care explică cel mai bine datele observate.
- oferă un cadru pentru modelarea predictivă în învățarea automată, unde găsirea parametrilor modelului poate fi încadrată ca o problemă de optimizare.
aveți întrebări?
puneți întrebările în comentariile de mai jos și voi face tot posibilul pentru a răspunde.ia un mâner pe probabilitate pentru Machine Learning!,
Dezvoltați-vă înțelegerea probabilității
…cu doar câteva linii de cod python
Descoperiți cum în noul meu Ebook:
probabilitate pentru Machine LearningAcesta oferă tutoriale de auto-studiu și proiecte end-to-end pe:
Teorema Bayes, optimizare Bayesian, distribuții, probabilitate maximă, Cross-entropie, calibrarea modele
și mult mai mult…în cele din urmă valorificați incertitudinea în proiectele dvs.
săriți academicienii. Doar Rezultate.Vezi ce este în interiorul
Tweet Share Share