laatst bijgewerkt op 5 November 2019
Dichtheidsschatting is het probleem van het schatten van de kansverdeling voor een steekproef van waarnemingen van een probleemdomein.
Er zijn veel technieken voor het oplossen van dichtheidsschatting, hoewel een gemeenschappelijk kader dat wordt gebruikt op het gebied van machine learning de schatting van de maximale waarschijnlijkheid is., Maximale waarschijnlijkheid schatting omvat het definiëren van een waarschijnlijkheid functie voor het berekenen van de voorwaardelijke waarschijnlijkheid van het observeren van de gegevens Monster gegeven een kansverdeling en distributie parameters. Deze aanpak kan worden gebruikt om een ruimte van mogelijke distributies en parameters te zoeken.,
dit flexibele probabilistische raamwerk biedt ook de basis voor veel machine learning algoritmen, waaronder belangrijke methoden zoals lineaire regressie en logistieke regressie voor het voorspellen van numerieke waarden en klassenlabels respectievelijk, maar ook meer in het algemeen voor deep learning kunstmatige neurale netwerken.
in dit bericht, vindt u een zachte inleiding tot maximale waarschijnlijkheid schatting te ontdekken.
na het lezen van dit bericht, zult u weten:
- maximale waarschijnlijkheid schatting is een probabilistisch kader voor het oplossen van het probleem van dichtheid schatting.,
- het gaat om het maximaliseren van een waarschijnlijkheidsfunctie om de kansverdeling en parameters te vinden die de waargenomen gegevens het beste verklaren.
- Het biedt een raamwerk voor voorspellende modellering in machine learning waar het vinden van modelparameters kan worden ingelijst als een optimalisatieprobleem.
start uw project met mijn nieuwe boek waarschijnlijkheid Voor Machine Learning, inclusief stap-voor-stap tutorials en de Python broncode bestanden voor alle voorbeelden.
laten we beginnen.,
Een Zachte Inleiding tot de schatting van de maximale waarschijnlijkheid voor Machine Learning
Foto door Guilhem Vellut, enkele rechten voorbehouden.
overzicht
Deze tutorial is verdeeld in drie delen; deze zijn:
- probleem van Kansdichtheidsschatting
- maximale Kansdichtheidsschatting
- relatie met Machine Learning
probleem van Kansdichtheidsschatting
een gemeenschappelijk modelleringsprobleem betreft het schatten van een gezamenlijke kansverdeling voor een dataset.,
bijvoorbeeld, gegeven een steekproef van waarneming (X) van een domein (x1, x2, x3, …, xn), waarbij elke waarneming onafhankelijk wordt getekend van het domein met dezelfde kansverdeling (zogenaamd onafhankelijk en identiek verdeeld, i.i.d., of dichtbij).
Dichtheidsschatting omvat het selecteren van een kansverdelingsfunctie en de parameters van die verdeling die de gezamenlijke kansverdeling van de geobserveerde gegevens het beste verklaren (X).
- Hoe kiest u de kansverdelingsfunctie?,
- Hoe kies je de parameters voor de kansverdelingsfunctie?
Dit probleem wordt moeilijker gemaakt omdat steekproef (X) uit de populatie klein is en ruis heeft, wat betekent dat elke evaluatie van een geschatte waarschijnlijkheidsdichtheidsfunctie en zijn parameters enige fout zal hebben.
er zijn veel technieken om dit probleem op te lossen, hoewel twee gemeenschappelijke benaderingen zijn:
- Maximum a Posteriori (MAP), een Bayesiaanse methode.
- schatting van de maximale waarschijnlijkheid (MLE), frequentiemethode.,
het belangrijkste verschil is dat MLE ervan uitgaat dat alle oplossingen van tevoren even waarschijnlijk zijn, terwijl MAP het mogelijk maakt vooraf informatie over de vorm van de oplossing te gebruiken.
in dit artikel zullen we de MLE-methode en de relatie met toegepast machine learning nader bekijken.
wil kans voor Machine Learning leren
neem nu mijn gratis 7-daagse e-mail spoedcursus (met voorbeeldcode).
Klik om u aan te melden en ontvang ook een gratis PDF Ebook versie van de cursus.,
Download uw gratis minicursus
maximale waarschijnlijkheid schatting
Eén oplossing voor kansdichtheid schatting wordt aangeduid als maximale waarschijnlijkheid schatting, of kortweg MLE.
maximale waarschijnlijkheid schatting omvat de behandeling van het probleem als een optimalisatie of zoek probleem, waarbij we zoeken naar een set van parameters die resulteert in de beste pasvorm voor de gezamenlijke waarschijnlijkheid van de data sample (X).,
ten eerste moet een parameter genaamd theta worden gedefinieerd die zowel de keuze van de waarschijnlijkheidsfunctie als de parameters van die distributie definieert. Het kan een vector van numerieke waarden zijn waarvan de waarden soepel veranderen en toewijzen aan verschillende kansverdelingen en hun parameters.,
bij maximale Waarschijnlijkheidsschatting willen we de waarschijnlijkheid maximaliseren van het waarnemen van de gegevens uit de gezamenlijke kansverdeling gegeven een specifieke kansverdeling en haar parameters, formeel aangegeven als:
- P(X | theta)
deze voorwaardelijke kans wordt vaak aangegeven met behulp van de puntkomma (;) notatie in plaats van de bar notatie (|) omdat theta geen willekeurige variabele is, maar in plaats daarvan een onbekende parameter., Bijvoorbeeld:
- P (X; theta)
of
- P(x1, x2, x3, …, xn ; theta)
deze resulterende voorwaardelijke waarschijnlijkheid wordt aangeduid als de waarschijnlijkheid van het waarnemen van de gegevens gegeven de modelparameters en geschreven met behulp van de notatie L () om de waarschijnlijkheidsfunctie aan te duiden. Bijvoorbeeld:
- L (X; theta)
Het doel van de maximale Waarschijnlijkheidsschatting is het vinden van de reeks parameters (theta) die de waarschijnlijkheidsfunctie maximaliseren, bijvoorbeeld resulteren in de grootste waarschijnlijkheidswaarde.,
- maximaliseer L (X ; theta)
We kunnen de voorwaardelijke waarschijnlijkheid, berekend door de waarschijnlijkheidsfunctie, uitpakken.
gegeven het feit dat de steekproef bestaat uit n voorbeelden, kunnen we dit framen als de gezamenlijke waarschijnlijkheid van de geobserveerde gegevens monsters x1, x2, x3, …, xn in X gegeven de kansverdelingsparameters (theta).
- L (x1, x2, x3, …, XN ; theta)
de gezamenlijke kansverdeling kan worden aangepast als de vermenigvuldiging van de voorwaardelijke kans voor het waarnemen van elk voorbeeld gegeven de distributieparameters.,
- product I tot en met n P(xi ; theta)
het samen vermenigvuldigen van vele kleine waarschijnlijkheden kan in de praktijk numeriek onstabiel zijn, daarom is het gebruikelijk om dit probleem te herhalen als de som van de log conditionele waarschijnlijkheden van het observeren van elk voorbeeld gegeven de modelparameters.
- som i tot n log(p(xi; theta))
waarbij log met base-e, de natuurlijke logaritme genoemd, vaak wordt gebruikt.
Dit product over vele waarschijnlijkheden kan lastig zijn het is gevoelig voor numerieke onderstroom., Om een handiger maar gelijkwaardig optimalisatieprobleem te verkrijgen, merken we op dat het nemen van de logaritme van de waarschijnlijkheid zijn arg max niet verandert, maar een product wel gemakkelijk omzet in een som
— Page 132, Deep Learning, 2016.
gezien het frequente gebruik van log in de waarschijnlijkheidsfunctie, wordt het gewoonlijk een log-waarschijnlijkheidsfunctie genoemd.
bij optimalisatieproblemen is het gebruikelijk om de kostenfunctie te minimaliseren in plaats van deze te maximaliseren., Daarom wordt het negatief van de log-waarschijnlijkheid functie gebruikt, in het algemeen aangeduid als een negatieve Log-waarschijnlijkheid (NLL) functie.
- minimaliseer-sum i tot n log(P (xi; theta))
in software worden beide vaak aangeduid als het minimaliseren van een kostenfunctie. Maximum likelihood thus becomes minimization of the negative log-likelihood (NLL) …
— Page 133, Deep Learning, 2016.
relatie met Machine Learning
Dit probleem van dichtheidsschatting is direct gerelateerd aan toegepast machine learning.,
we kunnen het probleem van het passen van een machine learning model als het probleem van kansdichtheidsschatting. Specifiek wordt de keuze van model en modelparameters aangeduid als een modelleringshypothese h, en het probleem houdt in het vinden van h die de gegevens het beste verklaart X.
- P (X; h)
We kunnen daarom de modelleringshypothese vinden die de waarschijnlijkheidsfunctie maximaliseert.,
- maximaliseer L (X; h)
of, vollediger:
- maximaliseer som i tot n log(p(xi ; h))
dit verschaft de basis voor het schatten van de waarschijnlijkheidsdichtheid van een dataset, meestal gebruikt in niet-gecontroleerde algoritmen voor machine learning; bijvoorbeeld:
- Clustering algoritmen.
het gebruik van de verwachte log gezamenlijke waarschijnlijkheid als sleutelhoeveelheid voor het leren in een waarschijnlijkheidsmodel met verborgen variabelen is beter bekend in de context van de beroemde” expectation maximization ” of EM algoritme.,
– Page 365, Data Mining: Practical Machine Learning Tools and Techniques, 4th edition, 2016.
Het Raamwerk voor de schatting van de maximale waarschijnlijkheid is ook een nuttig hulpmiddel voor machine learning onder toezicht.
Dit is van toepassing op gegevens waarbij we input en output variabelen hebben, waarbij de output variate een numerieke waarde of een klasse label kan zijn in het geval van regressie en classificatie voorspellende modellering retrospectief.
We kunnen dit stellen als de voorwaardelijke waarschijnlijkheid van de uitvoer (y) gegeven de invoer (X) gegeven de modelleringshypothese (h).,
- maximaliseer L(y/X ; h)
of, vollediger:
- maximaliseer som i tot n log(P(yi/xi ; h))
De maximale waarschijnlijkheidsschatting kan gemakkelijk worden gegeneraliseerd naar het geval waarin ons doel is een voorwaardelijke waarschijnlijkheid te schatten P(y / x ; theta) om y gegeven X te voorspellen. dit is eigenlijk de meest voorkomende situatie omdat het de basis vormt voor de meeste begeleid leren.
– Page 133, Deep Learning, 2016.,
Dit betekent dat hetzelfde raamwerk voor de schatting van de maximale waarschijnlijkheid dat gewoonlijk wordt gebruikt voor de schatting van de dichtheid kan worden gebruikt om een begeleid leermodel en parameters te vinden.
dit vormt de basis voor fundamentele lineaire modelleringstechnieken, zoals:
- lineaire regressie, voor het voorspellen van een numerieke waarde.
- logistieke regressie, voor binaire classificatie.
in het geval van lineaire regressie is het model beperkt tot een lijn en omvat het vinden van een reeks coëfficiënten voor de lijn die het beste past bij de waargenomen gegevens., Gelukkig kan dit probleem analytisch worden opgelost (bijvoorbeeld direct met behulp van lineaire algebra).
in het geval van logistische regressie definieert het model een lijn en omvat het vinden van een reeks coëfficiënten voor de lijn die de klassen het beste scheidt. Dit kan niet analytisch worden opgelost en wordt vaak opgelost door de ruimte van mogelijke coëfficiëntenwaarden te doorzoeken met behulp van een efficiënt optimalisatiealgoritme zoals het bfgs-algoritme of varianten.
beide methoden kunnen ook minder efficiënt worden opgelost met behulp van een meer algemeen optimalisatiealgoritme zoals stochastische gradiëntafdaling.,
in feite kunnen de meeste machine learning modellen worden Framework onder de maximale waarschijnlijkheid schatting framework, het verstrekken van een nuttige en consistente manier om predictieve modellering te benaderen als een optimalisatie probleem.
een belangrijk voordeel van de maximalisate likelihood estimator in machine learning is dat naarmate de omvang van de dataset toeneemt, de kwaliteit van de estimator blijft verbeteren.
verder lezen
Deze sectie biedt meer bronnen over het onderwerp als u dieper wilt gaan.
Books
- hoofdstuk 5 basisprincipes van Machine Learning, Deep Learning, 2016.,
- hoofdstuk 2 kansverdelingen, patroonherkenning en Machine Learning, 2006.
- hoofdstuk 8 Model Inference and Averaging, the Elements of Statistical Learning, 2016.
- hoofdstuk 9 Probabilistic methods, Data Mining: Practical Machine Learning Tools and Techniques, 4th edition, 2016.
- hoofdstuk 22 Maximum Likelihood and Clustering, Information Theory, Inference and Learning Algorithms, 2003.
- hoofdstuk 8 leerdistributies, Bayesian Reasoning and Machine Learning, 2011.
artikelen
- maximale waarschijnlijkheid schatting, Wikipedia.,
- maximale waarschijnlijkheid, Wolfram MathWorld.
- Waarschijnlijkheidsfunctie, Wikipedia.
- enkele problemen met het begrijpen van de definitie van een functie in een methode met maximale waarschijnlijkheid, CrossValidated.
samenvatting
in dit bericht ontdekte u een zachte introductie tot de schatting van maximale waarschijnlijkheid.
specifiek leerde u:
- maximale waarschijnlijkheid schatting is een probabilistisch kader voor het oplossen van het probleem van dichtheid schatting.,
- het gaat om het maximaliseren van een waarschijnlijkheidsfunctie om de kansverdeling en parameters te vinden die de waargenomen gegevens het beste verklaren.
- Het biedt een raamwerk voor voorspellende modellering in machine learning waar het vinden van modelparameters kan worden ingelijst als een optimalisatieprobleem.
heeft u vragen?
Stel uw vragen in de opmerkingen hieronder en Ik zal mijn best doen om te beantwoorden.
vat de waarschijnlijkheid voor Machine Learning op!,
Ontwikkel uw begrip van waarschijnlijkheid
…met slechts een paar regels python code
ontdek hoe in mijn nieuwe Ebook:
waarschijnlijkheid voor Machine Learning
Het zelfstudie tutorials en end-to-end projecten op biedt:
Bayes stelling, Bayesiaanse optimalisatie, distributies, maximale waarschijnlijkheid, Cross-entropie, kalibratie modellen
en nog veel meer…
ten slotte benutten onzekerheid in uw projecten
overslaan van de academici. Alleen Resultaten.Bekijk wat er in