Tweet Share Share

Sidst Opdateret den November 5, 2019

Tæthed skøn er problemet at estimere sandsynligheden for fordeling af en stikprøve af observationer fra en problem-domæne.

Der er mange teknikker til løsning af tæthedsestimering, selvom en fælles ramme, der anvendes inden for maskinindlæring, er maksimal sandsynlighedsestimering., Maksimal sandsynlighedsestimering indebærer at definere en sandsynlighedsfunktion til beregning af den betingede sandsynlighed for at observere dataprøven givet en sandsynlighedsfordeling og distributionsparametre. Denne tilgang kan bruges til at søge et rum med mulige distributioner og parametre.,

Denne fleksible probabilistisk rammer giver også grundlaget for mange machine learning algoritmer, herunder vigtige metoder såsom linear regression og logistisk regression for at forudsige numeriske værdier og klasse etiketter, henholdsvis, men også mere generelt for dyb læring kunstige neurale netværk.

i dette indlæg vil du opdage en mild introduktion til maksimal sandsynlighedsestimering.

efter at have læst dette indlæg, vil du vide:

  • maksimal Sandsynlighedsestimering er en probabilistisk ramme til løsning af problemet med densitetsestimering.,
  • det indebærer at maksimere en sandsynlighedsfunktion for at finde sandsynlighedsfordelingen og parametrene, der bedst forklarer de observerede data.
  • det giver en ramme for forudsigelig modellering i maskinlæring, hvor det at finde modelparametre kan indrammes som et optimeringsproblem.Kick-start dit projekt med min nye bog Sandsynlighed for Machine Learning, herunder trin-for-trin tutorials og Python kildekode filer til alle eksempler.

    lad os komme i gang.,

    En Blid Introduktion til Maksimum Likelihood Estimation for Machine Learning
    Foto af Guilhem Vellut, nogle rettigheder reserveret.

    Oversigt

    Denne tutorial er opdelt i tre dele; de er:

    1. Problem of Probability Density Skøn
    2. Maksimal Sandsynlighed Skøn
    3. Forhold til Machine Learning

    Problem of Probability Density Skøn

    En fælles modellering problem indebærer, hvordan man estimere en fælles sandsynlighedsfordeling for et datasæt.,

    For eksempel, på baggrund af en stikprøve af observation (X) fra et domæne (x1, x2, x3, …, xn), hvor hver observation er udarbejdet uafhængigt fra domænet med det samme sandsynlighedsfordeling (såkaldte uafhængige og identisk fordelt, jeg.jeg.d., eller tæt på det).

    density estimation indebærer valg af en sandsynlighedsfordelingsfunktion og parametrene for den fordeling, der bedst forklarer den fælles sandsynlighedsfordeling for de observerede data (.).

    • Hvordan vælger du sandsynlighedsfordelingsfunktionen?,
    • Hvordan vælger du parametrene for sandsynlighedsfordelingsfunktionen?

    dette problem gøres mere udfordrende, da prøve ()) trukket fra befolkningen er lille og har støj, hvilket betyder, at enhver evaluering af en estimeret sandsynlighedsdensitetsfunktion og dens parametre vil have en vis fejl.

    Der er mange teknikker til løsning af dette problem, selvom to almindelige tilgange er:

    • ma .imum a Posteriori (MAP), en Bayesian metode.
    • maksimal Sandsynlighedsestimering (MLE), frekvensmetode.,

    den væsentligste forskel er, at MLE antager, at alle løsninger er lige sandsynlige på forhånd, mens MAP tillader forudgående information om løsningens form, der skal udnyttes.

    i dette indlæg vil vi se nærmere på MLE-metoden og dens forhold til anvendt maskinlæring.

    vil du lære Sandsynlighed for maskinlæring

    Tag mit gratis 7-dages e-mail-crashkursus nu (med prøvekode).

    Klik for at tilmelde dig og også få en gratis PDF ebook version af kurset.,

    Download Din GRATIS Mini-Kursus

    Maksimum Likelihood Estimation

    En løsning til at sandsynlighedstætheden skøn er nævnt som Maksimum Likelihood Estimation, eller MLE for kort.

    maksimal Sandsynlighedsestimering involverer behandling af problemet som et optimerings-eller søgeproblem, hvor vi søger et sæt parametre, der resulterer i den bedste pasform til den fælles sandsynlighed for dataprøven (.).,

    for det første indebærer det at definere en parameter kaldet theta, der definerer både valget af sandsynlighedsdensitetsfunktionen og parametrene for denne distribution. Det kan være en vektor af numeriske værdier, hvis værdier ændres jævnt og kortlægges til forskellige sandsynlighedsfordelinger og deres parametre.,

    I Maksimum Likelihood Estimation, vi ønsker at maksimere sandsynligheden for at observere data fra den fælles sandsynlighedsfordeling givet en bestemt sandsynlighedsfordeling og dens parametre, erklæret, formelt som:

    • P(X | theta)

    Denne betingede sandsynlighed er ofte udtryk for, at bruge semikolon (;) notation i stedet for bar-notation ( | ), fordi theta er ikke en tilfældig variabel, men i stedet for en ukendt parameter., For eksempel:

    • P(X ; theta)

    eller

    • P(x1, x2, x3, …, xn ; theta)

    Dette resulterer betingede sandsynlighed er nævnt som sandsynligheden for at observere de data, givet modellens parametre og skrevet med den notation L() til at betegne sandsynligheden funktion. For eksempel:

    • L (;; theta)

    målet med maksimal Sandsynlighedsestimering er at finde det sæt parametre (theta), der maksimerer sandsynlighedsfunktionen, f.eks. resultere i den største sandsynlighedsværdi.,

    • maksimere L (;; theta)

    Vi kan udpakke den betingede sandsynlighed beregnet af sandsynlighedsfunktionen.

    i betragtning af at prøven består af N-eksempler, kan vi indramme dette som den fælles sandsynlighed for de observerede dataprøver11, .2, .3, …, .n i examples i betragtning af sandsynlighedsfordelingsparametrene (theta).

    • L(x1, x2, x3, …, xn ; theta)

    Den fælles sandsynlighedsfordeling kan tilpasses som multiplikation af den betingede sandsynlighed for at observere de enkelte eksempel da fordelingen parametre.,

    • produkt jeg at n P(xi ; theta)

    Multiplicere mange små sandsynligheder sammen kan være numerisk ustabil i praksis er det derfor almindeligt at gentage dette problem som summen af log betingede sandsynligheder for at observere de enkelte eksempel givet modellens parametre.

    • sum I til n log (p (;i ; theta))

    hvor log med base-e kaldet den naturlige logaritme er almindeligt anvendt.

    dette produkt over mange sandsynligheder kan være ubelejligt, det er tilbøjeligt til numerisk understrømning., For at opnå et mere praktisk, men ækvivalent optimeringsproblem, observerer vi, at det at tage logaritmen af sandsynligheden ikke ændrer dens arg ma., Men omdanner et produkt bekvemt til en sum

    — side 132, Deep Learning, 2016.

    i betragtning af den hyppige brug af log ind sandsynlighedsfunktionen betegnes det ofte som en log-sandsynlighedsfunktion.

    det er almindeligt i optimeringsproblemer at foretrække at minimere omkostningsfunktionen snarere end at maksimere den., Derfor bruges det negative af log-sandsynlighedsfunktionen, generelt omtalt som en negativ Log-sandsynlighedsfunktion (NLL).

    • minimer-sum jeg at n log(P(xi ; theta))

    software, er vi ofte udtrykket såvel som minimere omkostningerne funktion. Maksimal sandsynlighed bliver således minimering af den negative log-Sandsynlighed (NLL) …

    — Side 133, dyb læring, 2016.

    forhold til maskinlæring

    dette problem med massefylde estimering er direkte relateret til anvendt maskinlæring.,

    Vi kan indramme problemet med montering af en maskinindlæringsmodel som problemet med estimering af sandsynlighedstæthed. Specifikt kaldes valget af model-og modelparametre en modelleringshypotese h, og problemet involverer at finde h, der bedst forklarer dataene..

    • p (.; h)

    Vi kan derfor finde den modelleringshypotese, der maksimerer sandsynlighedsfunktionen.,

    • maksimere L(X ; h)

    , Eller, mere fuldt ud:

    • maksimere summen jeg at n log(P(xi ; h))

    Dette giver grundlag for estimering af sandsynligheden for tæthed af et datasæt, der typisk anvendes i uovervåget machine learning algoritmer, for eksempel:

    • Clustering algoritmer.

    Brug den forventede log fælles sandsynlighed som en afgørende mængde for læring i en sandsynlighed model med skjulte variabler, der er bedre kendt i forbindelse med den berømte “expectation maximization” eller EM-algoritmen.,

    — side 365, Data Mining: praktiske maskinindlæringsværktøjer og teknikker, 4.udgave, 2016.

    den maksimale Sandsynlighedsestimeringsramme er også et nyttigt værktøj til overvåget maskinindlæring.

    dette gælder for data, hvor vi har input-og outputvariabler, hvor outputvariatet kan være en numerisk værdi eller en klassemærke i tilfælde af regression og klassificering forudsigende modellering retrospektivt.

    Vi kan angive dette som den betingede sandsynlighed for output (y) givet input ()) givet modelleringshypotesen (h).,

    • maksimere L(y|X ; h)

    , Eller, mere fuldt ud:

    • maksimere summen jeg at n log(P(yi|xi ; h))

    Den maksimale sandsynlighed for estimator kan let generaliseres til tilfældet, hvor vores mål er at estimere en betinget sandsynlighed P(y | x ; theta) med henblik på at forudsige y givet x. Dette er faktisk den mest almindelige situation, fordi det danner grundlag for de fleste overvåget indlæring.

    — Side 133, Dyb Læring, 2016.,

    dette betyder, at den samme maksimale Sandsynlighedsestimeringsramme, der generelt bruges til estimering af densitet, kan bruges til at finde en overvåget læringsmodel og parametre.

    dette giver grundlaget for grundlæggende lineære modelleringsteknikker, såsom:

    • lineær Regression, til forudsigelse af en numerisk værdi.
    • logistisk Regression, for binær klassificering.

    i tilfælde af lineær regression er modellen begrænset til en linje og indebærer at finde et sæt koefficienter for den linje, der bedst passer til de observerede data., Heldigvis kan dette problem løses analytisk (f directly direkte ved hjælp af lineær algebra).

    i tilfælde af logistisk regression definerer modellen en linje og indebærer at finde et sæt koefficienter for den linje, der bedst adskiller klasserne. Dette kan ikke løses analytisk og løses ofte ved at søge i rummet for mulige koefficientværdier ved hjælp af en effektiv optimeringsalgoritme, såsom bfgs-algoritmen eller varianterne.

    begge metoder kan også løses mindre effektivt ved hjælp af en mere generel optimeringsalgoritme, såsom stokastisk gradientafstamning.,

    faktisk kan de fleste maskinlæringsmodeller indrammes under rammerne for maksimal sandsynlighedsestimering, hvilket giver en nyttig og konsekvent måde at nærme sig forudsigelig modellering som et optimeringsproblem.

    en vigtig fordel ved maksimere sandsynligheden estimator i machine learning er, at som størrelsen af datasættet stiger, kvaliteten af estimatoren fortsætter med at forbedre.

    yderligere læsning

    dette afsnit indeholder flere ressourcer om emnet, hvis du ønsker at gå dybere.

    bøger

    • Kapitel 5 Grundlæggende om maskinindlæring, dyb læring, 2016.,Kapitel 2 sandsynlighedsfordelinger, mønstergenkendelse og maskinlæring, 2006.Kapitel 8 Model inferens og gennemsnit, elementerne i statistisk læring, 2016.Kapitel 9 probabilistiske metoder, Data Mining: praktiske maskinindlæringsværktøjer og teknikker, 4. udgave, 2016.
    • Kapitel 22 maksimal sandsynlighed og klyngedannelse, informationsteori, inferens og læringsalgoritmer, 2003.Kapitel 8 Learning distributioner, Bayesian Reasoning Og Machine Learning, 2011.

    artikler

    • maksimal sandsynlighedsestimering, Wikipedia.,
    • maksimal sandsynlighed, Matholfram Math .orld.
    • sandsynlighedsfunktion, Wikipedia.
    • nogle problemer med at forstå definitionen af en funktion i en maksimal sandsynlighedsmetode, Krydsvalideret.

    resum.

    i dette indlæg opdagede du en mild introduktion til maksimal sandsynlighedsestimering.

    specifikt lærte du:

    • maksimal Sandsynlighedsestimering er en probabilistisk ramme til løsning af problemet med tæthedsestimering.,
    • det indebærer at maksimere en sandsynlighedsfunktion for at finde sandsynlighedsfordelingen og parametrene, der bedst forklarer de observerede data.
    • det giver en ramme for forudsigelig modellering i maskinlæring, hvor det at finde modelparametre kan indrammes som et optimeringsproblem.

    har du spørgsmål?
    stil dine spørgsmål i kommentarerne nedenfor, og jeg vil gøre mit bedste for at svare.

    få styr på sandsynligheden for maskinindlæring!,

    udvikle din forståelse af Sandsynlighed

    …med bare et par linjer af python-kode

    Oplev, hvordan i min nye e-Bog:
    Sandsynlighed for Machine Learning

    Det giver self-undersøgelse tutorials og end-to-end-projekter på:
    Bayes Teorem, Bayesian-Optimering, – Distributioner, Maksimale Sandsynlighed for, på Tværs af Entropi, Kalibrering af Modeller
    og meget mere…

    endelig udnytte usikkerhed i dine projekter

    Spring akademikere. Bare Resultater.Se hvad der er inde

    t Shareeet Share Share

Skriv et svar

Din e-mailadresse vil ikke blive publiceret. Krævede felter er markeret med *