Tweet Dele Dele

Sist Oppdatert 5. November 2019

Tetthet estimering, er problemet med å estimere sannsynlighetsfordeling for et utvalg av observasjoner fra et problem domene.

Det er mange teknikker for å løse tetthet estimering, selv om et felles rammeverk som brukes over hele feltet av maskinlæring er maximum likelihood-estimering., Maksimum likelihood estimering innebærer å definere en likelihood-funksjon for beregning av den betingede sannsynligheten for å observere data eksempel gitt en sannsynlighetsfordeling og distribusjon parametere. Denne tilnærmingen kan brukes til å søke i et område av mulige fordelinger og parametere.,

Denne fleksible probabilistisk framework gir også grunnlaget for mange maskinlæring algoritmer, inkludert viktige metoder som lineær regresjon og logistisk regresjon for å forutsi numeriske verdier og klasse etiketter henholdsvis, men også mer generelt for dybdekunnskap kunstige nevrale nettverk.

I dette innlegget, vil du oppdage en forsiktig introduksjon til maksimum likelihood estimering.

Etter å ha lest dette innlegget, vil du vite:

  • Maximum Likelihood-Estimering er en probabilistisk rammeverk for å løse problemet med tetthet estimering.,
  • Det innebærer å maksimere en likelihood-funksjon for å finne sannsynligheten for distribusjon og parametre som best kan forklare de observerte data.
  • Det gir en ramme for prediktiv modellering i maskinen for å lære hvor å finne modell-parametre kan være utformet som en optimalisering problem.

en Kick-start på prosjektet med min nye bok Sannsynlighet for maskinlæring, inkludert trinnvise veiledninger og Python kildekoden filer for alle eksempler.

La oss komme i gang.,

En Forsiktig Introduksjon til Maximum Likelihood-Estimering for maskinlæring
Foto av Guilhem Vellut, noen rettigheter er reservert.

Oversikt

Denne opplæringen er delt inn i tre deler; de er:

  1. Problemet med Sannsynlighet Tetthet Estimering
  2. Maximum Likelihood-Estimering
  3. Forhold til maskinlæring

Problemet med Sannsynlighet Tetthet Estimering

En felles modellering problemet innebærer hvordan å estimere en felles sannsynlighetsfordeling for et dataset.,

For eksempel, gitt et eksempel på observasjon (X) fra et domene (x1, x2, x3, …, xn), hvor hver observasjon er trukket uavhengig av domene med samme sannsynlighetsfordeling (såkalte uavhengige og identisk fordelt, jeg.jeg har.d., eller nær det).

Tetthet estimering innebærer å velge en sannsynlighetsfordeling funksjon og parametrene av at distribusjon som best forklarer den felles sannsynlighetsfordeling av de observerte data (X).

  • Hvordan velger du den sannsynlighetsfordeling funksjon?,
  • Hvordan gjør du velge parametrene for sannsynlighetsfordeling funksjon?

Dette problemet er enda mer utfordrende i eksempel (X) trukket fra populasjonen er liten og har støy, noe som betyr at noen evaluering av anslagsvis sannsynlighetstetthetsfunksjonen og dens parametere vil ha noen feil.

Det er mange teknikker for å løse dette problemet, selv om to vanlige tilnærminger er:

  • Maximum a Posteriori (KART), en Bayesiansk-metoden.
  • Maksimum Likelihood Estimering (MLE), frequentist metode.,

Den viktigste forskjellen er at MLE forutsetter at alle løsninger er like sannsynlig på forhånd, mens KARTET lar forutgående informasjon om form av løsningen på å bli brukt.

I dette innlegget, vi skal ta en nærmere titt på MLE metoden og dens forhold til anvendt maskinlæring.

Vil Lære Sannsynlighet for maskinlæring

Ta min gratis 7-dagers e-post lynkurs nå (med eksempelkode).

Klikk for å registrere deg, og også få en gratis PDF Ebok-versjon av kurset.,

Last ned Din GRATIS Mini-Kurs

Maximum Likelihood-Estimering

En løsning for å sannsynlighet tetthet estimering er referert til som Maximum Likelihood-Estimering, eller MLE for kort.

Maximum Likelihood-Estimering innebærer behandling av problemet som en optimalisering eller søke problem, der vi søker et sett av parametere som resulterer i det som passer best for den samlede sannsynligheten for eksempel data (X).,

for det Første, det innebærer å definere en parameter kalt theta som definerer både valg av sannsynlighetstetthetsfunksjonen og parametrene av at distribusjon. Det kan være en vektor av numeriske verdier som har verdier endre jevnt og kart til ulike sannsynlighetsfordelinger og deres parametere.,

I Maximum Likelihood-Estimering, vi ønsker å maksimere sannsynligheten for å observere data fra den felles sannsynlighetsfordeling gitt en bestemt sannsynlighetsfordeling og dens parametere, uttalte formelt som:

  • P(X | theta)

Dette betinget sannsynlighet er ofte oppgitt med semikolon (;) notasjon i stedet for bar-notasjon (|) fordi theta er ikke en tilfeldig variabel, men i stedet en ukjent parameter., For eksempel:

  • P(X ; theta)

eller

  • P(x1, x2, x3, …, xn ; theta)

Dette resulterer betinget sannsynlighet er referert til som sannsynligheten for at den angitte data gitt modellens parametre og skrevet ved hjelp av notasjonen L() for å betegne sannsynligheten funksjon. For eksempel:

  • L(X, theta)

målet av Maximum Likelihood-Estimering er å finne den innstilte parametere (theta) som maksimerer sannsynligheten funksjon, f.eks. resultere i den største sannsynligheten verdi.,

  • maksimere L(X, theta)

Vi kan pakk ut den betingede sannsynligheten er beregnet av likelihood-funksjonen.

Gitt at prøven består av n eksempler, kan vi tilpasse dette som felles sannsynligheten for at den observerte data prøver x1, x2, x3, …, xn X gitt sannsynlighetsfordeling parametre (theta).

  • L(x1, x2, x3, …, xn ; theta)

Den felles sannsynlighetsfordeling kan bli omarbeidet som multiplikasjon av den betingede sannsynligheten for å observere hver enkelt eksempel gitt fordelingen parametere.,

  • produkt jeg til n P(xi ; theta)

å Multiplisere mange små sannsynligheter sammen kan være numerisk ustabil i praksis, derfor er det vanlig å omarbeiding av dette problemet som summen av logg betingede sannsynligheten for å observere hver enkelt eksempel gitt modellens parametre.

  • summen jeg til n log(P(xi ; theta))

Hvor logg med base-e som kalles den naturlige logaritmen er ofte brukt.

Dette produktet over mange sannsynligheter kan være upraktisk det er utsatt for numerisk underflow., For å få en mer praktisk, men tilsvarende optimalisering problem, ser vi at det å ta logaritmen av sannsynligheten endrer ikke sine arg max, men har en gunstig forvandle et produkt i en sum

— Side 132, dybdekunnskap, 2016.

Gitt hyppig bruk av logg i likelihood-funksjonen, er det ofte referert til som en log-likelihood-funksjonen.

Det er vanlig i optimalisering problemer å foretrekke å minimere kostnadene funksjon, snarere enn å maksimere den., Derfor, den negative av log-likelihood-funksjonen brukes, referert til som et generelt Negative Log-Likelihood (NLL) – funksjonen.

  • minimer -summen jeg til n log(P(xi ; theta))

I programvaren, er vi ofte uttrykk både som minimere en kostnadsfunksjon. Maximum likelihood-dermed blir minimering av negative log-likelihood (NLL) …

— Side 133, dybdekunnskap, 2016.

Forhold til maskinlæring

Dette problemet estimering av tetthet er direkte knyttet til anvendt maskinlæring.,

Vi kan ramme problemet med å montere en maskin læringsmodell som problem av sannsynlighet tetthet estimering. Spesielt, valg av modell og modell-parametre er referert til som en modellering hypotese h, og problemet innebærer å finne h som best forklarer data X.

  • P(X ; t)

Vi kan derfor finne modellering hypotese som maksimerer sannsynligheten funksjon.,

  • maksimere L(X ; t)

Eller, mer fullt ut:

  • maksimere summen jeg til n log(P(xi ; t))

Dette gir grunnlag for å anslå sannsynligheten tetthet av et dataset, som vanligvis brukes i maskinen uten tilsyn læring algoritmer, for eksempel:

  • Clustering algoritmer.

ved Hjelp av den forventede logg felles sannsynlighet som en nøkkel kvantum for læring i en sannsynlighet modell med skjulte variabler er bedre kjent i sammenheng med den berømte «forventning maksimering» eller EM-algoritmen.,

— Side 365, Data Mining: Praktisk Machine Learning Verktøy og Teknikker, 4th edition, 2016.

Maximum Likelihood-Estimering rammeverket er også et nyttig verktøy for overvåket maskinlæring.

Dette gjelder data der vi har input og output-variabler, der produksjonen kan variere være en numerisk verdi eller en klasse etikett i tilfelle av regresjon og klassifisering prediktiv modellering i ettertid.

Vi kan si dette som den betingede sannsynligheten for produksjonen (y) gitt innspill (X) gitt modellering hypotese (h).,

  • maksimere L(y|X, h)

Eller, mer fullt ut:

  • maksimere summen jeg til n log(P(yi|xi ; h))

maximum likelihood-funksjonen kan lett utvides til tilfelle hvor målet er å estimere en betinget sannsynlighet P(y | x, theta) for å forutsi y gitt x. Dette er faktisk den mest vanlige situasjonen fordi det danner grunnlaget for de fleste overvåket læring.

— Side 133, dybdekunnskap, 2016.,

Dette betyr at den samme Maximum Likelihood-Estimering rammeverk som vanligvis brukes for å tetthet estimering kan brukes til å finne en overvåket læring modellen og parametrene.

Dette gir grunnlag for grunnleggende lineær modellering teknikker, som for eksempel:

  • Lineær Regresjon, for å forutsi en numerisk verdi.
  • Logistisk Regresjon for binære klassifisering.

I tilfelle av lineær regresjon, modellen er begrenset til en linje, og innebærer å finne et sett av koeffisienter for den linjen som passer best til de observerte data., Heldigvis, dette problemet kan løses analytisk (f.eks. direkte ved hjelp av lineær algebra).

I tilfelle av logistisk regresjon, modellen definerer en linje, og innebærer å finne et sett av koeffisienter for linjen som best skiller klassene. Dette kan ikke løses analytisk og er ofte løst ved å søke plass av mulige koeffisient verdiene ved hjelp av en effektiv optimalisering algoritme som BFGS algoritme eller varianter av dette.

Begge metoder kan også løses mindre effektivt ved hjelp av en mer generell optimalisering algoritme som stokastiske gradient avstamning.,

faktisk, de fleste maskinlæring modeller kan bygges under maximum likelihood-estimering rammeverk, og gir en nyttig og konsekvent måte å nærme prediktiv modellering som en optimalisering problem.

En viktig fordel av å maksimere sannsynligheten for estimator i maskinlæring er at størrelsen på datasettet øker, kvaliteten av estimator fortsetter å forbedre seg.

Mer å Lese

Dette avsnittet gir mer ressurser på emnet dersom du er ute etter å gå dypere.

Bøker

  • Kapittel 5 Maskin Lære Grunnleggende, dybdekunnskap, 2016.,
  • Kapittel 2 sannsynlighetsfordelinger, mønstergjenkjenning og maskinlæring, 2006.
  • Kapittel 8 Modell Slutning og Snitt, Elementer av Statistiske Læring, 2016.
  • Kapittel 9 Statistiske metoder, Data Mining: Praktisk Machine Learning Verktøy og Teknikker, 4th edition, 2016.
  • Kapittel 22 Maximum Likelihood og Klynger, Informasjon, Teori, Analyse og Læring Algoritmer, 2003.
  • Kapittel 8 Læring distribusjoner, Bayesiansk Tankegang og maskinlæring, 2011.

Artikler

  • Maximum likelihood-estimering, Wikipedia.,
  • Maximum Likelihood, Wolfram MathWorld.
  • Likelihood-funksjonen, Wikipedia.
  • Noen problemer med å forstå definisjon av en funksjon i en maksimum likelihood metoden, CrossValidated.

Oppsummering

I dette innlegget, du har oppdaget en forsiktig introduksjon til maksimum likelihood estimering.

Spesifikt, du lært:

  • Maximum Likelihood-Estimering er en probabilistisk rammeverk for å løse problemet med tetthet estimering.,
  • Det innebærer å maksimere en likelihood-funksjon for å finne sannsynligheten for distribusjon og parametre som best kan forklare de observerte data.
  • Det gir en ramme for prediktiv modellering i maskinen for å lære hvor å finne modell-parametre kan være utformet som en optimalisering problem.

har du spørsmål?
Stille dine spørsmål i kommentarfeltet under, og jeg vil gjøre mitt beste for å svare.

– >

Få et Håndtak på Sannsynligheten for maskinlæring!,

Utvikle Din Forståelse av Sannsynlighet

…med bare et par linjer av python-kode

Oppdag hvordan i min nye Bok:
Sannsynligheten for maskinlæring

Det gir selvstudium tutorials og ende-til-ende prosjekter på:
Bayes Teorem, Bayesianske Optimalisering, Distribusjoner, Maximum Likelihood, Cross-Entropi, Kalibrere Modellene
og mye mer…

til Slutt Sele Usikkerhet i Prosjekter

Hoppe over Akademikere. Bare Resultater.Se Hva som er Inni

Tweet Dele Dele

Legg igjen en kommentar

Din e-postadresse vil ikke bli publisert. Obligatoriske felt er merket med *