Eine sanfte Einführung in die maximale Wahrscheinlichkeitsschätzung für maschinelles Lernen

Tweet Share Share

Zuletzt aktualisiert am 5. November 2019

Dichteschätzung ist das Problem der Schätzung der Wahrscheinlichkeitsverteilung für eine Stichprobe von Beobachtungen aus einer Problemdomäne.

Es gibt viele Techniken zur Lösung der Dichteschätzung, obwohl ein gemeinsamer Rahmen, der im gesamten Bereich des maschinellen Lernens verwendet wird, die Schätzung der maximalen Wahrscheinlichkeit ist., Maximale Wahrscheinlichkeitsschätzung beinhaltet die Definition einer Wahrscheinlichkeitsfunktion zur Berechnung der bedingten Wahrscheinlichkeit der Beobachtung der Datenstichprobe bei einer Wahrscheinlichkeitsverteilung und Verteilungsparameter. Dieser Ansatz kann verwendet werden, um einen Raum möglicher Verteilungen und Parameter zu durchsuchen.,

Dieses flexible probabilistische Framework bietet auch die Grundlage für viele Algorithmen für maschinelles Lernen, einschließlich wichtiger Methoden wie der linearen Regression und der logistischen Regression zur Vorhersage numerischer Werte bzw.

In diesem Beitrag finden Sie eine sanfte Einführung in die Schätzung der maximalen Wahrscheinlichkeit.

Nachdem Sie diesen Beitrag gelesen haben, werden Sie wissen:

Die Schätzung der maximalen Wahrscheinlichkeit ist ein probabilistischer Rahmen zur Lösung des Problems der Dichteschätzung.,
Es geht darum, eine Wahrscheinlichkeitsfunktion zu maximieren, um die Wahrscheinlichkeitsverteilung und Parameter zu finden, die die beobachteten Daten am besten erklären.
Es bietet ein Framework für die prädiktive Modellierung im maschinellen Lernen, bei dem das Finden von Modellparametern als Optimierungsproblem dargestellt werden kann.

Starten Sie Ihr Projekt mit meinem neuen Buch Wahrscheinlichkeit für maschinelles Lernen, einschließlich Schritt-für-Schritt-Tutorials und die Python-Quellcode-Dateien für alle Beispiele.

Los geht ‚ s.,

Eine sanfte Einführung in maximale Wahrscheinlichkeitsschätzung für maschinelles Lernen
Foto von Guilhem Vellut, einige Rechte vorbehalten.

Übersicht

Dieses Tutorial ist in drei Teile unterteilt:

Problem der Wahrscheinlichkeitsdichteschätzung
Schätzung der maximalen Wahrscheinlichkeit
Beziehung zum maschinellen Lernen

Problem der Wahrscheinlichkeitsdichteschätzung

Ein häufiges Modellierungsproblem besteht darin, wie eine gemeinsame Wahrscheinlichkeitsverteilung für einen Datensatz geschätzt wird.,

Zum Beispiel bei einer Stichprobe von Beobachtungen (X) aus einer Domäne (x1, x2, x3, …, xn), wobei jede Beobachtung unabhängig von der Domäne mit der gleichen Wahrscheinlichkeitsverteilung gezogen wird (sogenannte unabhängig und identisch verteilt, d. h., oder in der Nähe davon).

Die Dichteschätzung beinhaltet die Auswahl einer Wahrscheinlichkeitsverteilungsfunktion und der Parameter dieser Verteilung, die die gemeinsame Wahrscheinlichkeitsverteilung der beobachteten Daten (X) am besten erklären.

Wie wählen Sie die Verteilungsfunktion?,
Wie wählen Sie die Parameter für die Wahrscheinlichkeitsverteilungsfunktion aus?

Dieses Problem wird schwieriger, da die Stichprobe (X) aus der Population klein ist und Rauschen aufweist, was bedeutet, dass jede Auswertung einer geschätzten Wahrscheinlichkeitsdichtefunktion und ihrer Parameter einen Fehler aufweist.

Es gibt viele Techniken zur Lösung dieses Problems, obwohl zwei gängige Ansätze sind:

und a Posteriori (MAP), eine bayesische Methode.
Maximum-Likelihood-Schätzung (MLE), frequentistischen Methode.,

Der Hauptunterschied besteht darin, dass MLE davon ausgeht, dass alle Lösungen vorher gleich wahrscheinlich sind, während MAP vorherige Informationen über die Form der Lösung ermöglicht.

In diesem Beitrag werfen wir einen genaueren Blick auf die MLE-Methode und Ihre Beziehung zur angewandten maschinellen Lernens.

Möchten Sie etwas über maschinelles Lernen lernen

Nehmen Sie jetzt an meinem kostenlosen 7-tägigen E-Mail-Crashkurs teil (mit Beispielcode).

Klicken Sie zur Anmeldung und erhalten Sie auch eine kostenlose PDF Ebook Version des Kurses.,

Laden Sie Ihren KOSTENLOSEN Minikurs herunter

Maximum Likelihood Estimation

Eine Lösung zur Wahrscheinlichkeitsdichteschätzung wird als Maximum Likelihood Estimation oder kurz MLE bezeichnet.

Die Schätzung der maximalen Wahrscheinlichkeit beinhaltet die Behandlung des Problems als Optimierungs-oder Suchproblem, bei dem wir nach einer Reihe von Parametern suchen, die am besten für die gemeinsame Wahrscheinlichkeit der Datenstichprobe (X) geeignet sind.,

Zunächst wird ein Parameter namens theta definiert, der sowohl die Wahl der Wahrscheinlichkeitsdichtefunktion als auch die Parameter dieser Verteilung definiert. Es kann ein Vektor numerischer Werte sein, dessen Werte sich reibungslos ändern und verschiedenen Wahrscheinlichkeitsverteilungen und ihren Parametern zugeordnet sind.,

In den Maximum-Likelihood-Schätzung, wir wollen, maximieren die Wahrscheinlichkeit der Beobachtung der Daten aus der gemeinsamen Wahrscheinlichkeitsverteilung zu einem bestimmten Wahrscheinlichkeit Verteilung und Ihre Parameter erklärt formell als:

P(X | theta)

Diese bedingte Wahrscheinlichkeit wird oft erklärt mit dem Semikolon (;) – notation anstelle des bar-notation ( | ), denn theta ist nicht eine zufällige variable, aber anstatt einen unbekannten parameter., Zum Beispiel:

P(X ; theta)

oder

P (x1, x2, x3, …, xn ; theta)

Diese resultierende bedingte Wahrscheinlichkeit wird als die Wahrscheinlichkeit bezeichnet, die Daten zu beobachten, wenn die Modellparameter angegeben und mit der Notation L () geschrieben werden, um die Wahrscheinlichkeitsfunktion zu bezeichnen. Zum Beispiel:

L (X ; theta)

Ziel der Schätzung der maximalen Wahrscheinlichkeit ist es, den Satz von Parametern (theta) zu finden, die die Wahrscheinlichkeitsfunktion maximieren, z. B. den größten Wahrscheinlichkeitswert ergeben.,

(X ; theta)

Wir können die von der Likelihood-Funktion berechnete bedingte Wahrscheinlichkeit entpacken.

Da die Stichprobe aus n Beispielen besteht, können wir dies als die gemeinsame Wahrscheinlichkeit der beobachteten Datenproben x1, x2, x3, …, xn in X unter Berücksichtigung der Wahrscheinlichkeitsverteilungsparameter (theta) einrahmen.

L (x1, x2, x3, …, xn ; theta)

Die gemeinsame Wahrscheinlichkeitsverteilung kann als Multiplikation der bedingten Wahrscheinlichkeit für die Beobachtung jedes Beispiels unter Berücksichtigung der Verteilungsparameter neu berechnet werden.,

Produkt i bis n P (xi ; theta)

Das Multiplizieren vieler kleiner Wahrscheinlichkeiten kann in der Praxis numerisch instabil sein, daher ist es üblich, dieses Problem als Summe der logischen bedingten Wahrscheinlichkeiten der Beobachtung jedes Beispiels anhand der Modellparameter neu zu formulieren.

Summe i bis n log (P (xi ; theta))

Wobei log mit Basis-e, dem natürlichen Logarithmus, häufig verwendet wird.

Dieses produkt über viele wahrscheinlichkeiten kann unbequem es ist anfällig für numerische unterfluss., Um ein bequemeres, aber äquivalentes Optimierungsproblem zu erhalten, beobachten wir, dass der Logarithmus der Wahrscheinlichkeit nicht seine arg-max ändert, sondern ein Produkt bequem in eine Summe

— Seite 132, Deep Learning, 2016.

Angesichts der häufigen Verwendung von log in der Likelihood-Funktion wird es allgemein als Log-Likelihood-Funktion bezeichnet.

Bei Optimierungsproblemen ist es üblich, die Kostenfunktion lieber zu minimieren als zu maximieren., Daher wird das Negativ der Log-Likelihood-Funktion verwendet, die allgemein als negative Log-Likelihood (NLL) – Funktion bezeichnet wird.

Minimierung der Summe, die ich zu n log(P(xi ; theta))

In der software, die wir oft Satz sowohl als die Minimierung einer Kostenfunktion. Maximum-likelihood-so wird die Minimierung der negativen log-likelihood (NLL), …

— Seite 133, Deep Learning, 2016.

Beziehung zum maschinellen Lernen

Dieses Problem der Dichteschätzung steht in direktem Zusammenhang mit dem angewandten maschinellen Lernen.,

Wir können das Problem der Anpassung eines maschinellen Lernmodells als Problem der Wahrscheinlichkeitsdichteschätzung einrahmen. Insbesondere wird die Auswahl von Modell-und Modellparametern als Modellierhypothese h bezeichnet, und das Problem besteht darin, h zu finden, das die Daten X am besten erklärt.

P(X ; h)

Wir können daher die Modellierhypothese finden, die die Wahrscheinlichkeitsfunktion maximiert.,

Maximieren Sie L(X ; h)

Oder vollständiger:

Maximieren Sie die Summe i bis n log(P(xi ; h))

Dies bietet die Grundlage für die Schätzung der Wahrscheinlichkeitsdichte eines Datensatzes, die typischerweise in unbeaufsichtigten Algorithmen für maschinelles Lernen verwendet wird; zum Beispiel:

Clustering-Algorithmen.

Die Verwendung der erwarteten Log-Joint-Wahrscheinlichkeit als Schlüsselgröße für das Lernen in einem Wahrscheinlichkeitsmodell mit versteckten Variablen ist im Kontext des berühmten“ expectation maximization “ – oder EM-Algorithmus besser bekannt.,

— Seite 365, Data Mining: Praktische Tools und Techniken für maschinelles Lernen, 4.Auflage, 2016.

Das Maximum Likelihood Estimation Framework ist auch ein nützliches Werkzeug für überwachtes maschinelles Lernen.

Dies gilt für Daten, bei denen wir Eingabe-und Ausgabevariablen haben, bei denen die Ausgabevariate im Falle einer Regressions-und klassifizierungsprädiktiven Modellierung retrospektiv ein numerischer Wert oder eine Klassenbezeichnung sein können.

Wir können dies als bedingte Wahrscheinlichkeit der Ausgabe (y) bei der Eingabe (X) bei der Modellierhypothese (h) angeben.,

Maximieren Sie L(y|X ; h)

Oder vollständiger:

Maximieren Sie die Summe i bis n log(P(yi|xi ; h))

Der maximale Wahrscheinlichkeitsschätzer kann leicht auf den Fall verallgemeinert werden, in dem es unser Ziel ist, eine bedingte Wahrscheinlichkeit P(y | x ; theta) zu schätzen, um y x. Dies ist eigentlich die häufigste Situation, weil es die Grundlage für die meisten überwachten Lernen bildet.

— Seite 133, Deep Learning, 2016.,

Dies bedeutet, dass das gleiche Maximum Likelihood Estimation Framework, das im Allgemeinen für die Dichteschätzung verwendet wird, verwendet werden kann, um ein überwachtes Lernmodell und Parameter zu finden.

Dies bietet die Grundlage für grundlegende lineare Modellierungstechniken wie:

Lineare Regression zur Vorhersage eines numerischen Werts.
Logistische Regression für binäre Klassifikation.

Im Falle einer linearen Regression ist das Modell auf eine Linie beschränkt und beinhaltet das Finden einer Reihe von Koeffizienten für die Linie, die am besten zu den beobachteten Daten passt., Glücklicherweise kann dieses Problem analytisch gelöst werden (z. B. direkt mit linearer Algebra).

Im Falle der logistischen Regression definiert das Modell eine Linie und beinhaltet das Finden einer Reihe von Koeffizienten für die Linie, die die Klassen am besten trennt. Dies kann nicht analytisch gelöst werden und wird häufig durch Durchsuchen des Raums möglicher Koeffizientenwerte mit einem effizienten Optimierungsalgorithmus wie dem BFGS-Algorithmus oder Varianten gelöst.

Beide Methoden können auch mit einem allgemeineren Optimierungsalgorithmus wie dem stochastischen Gradientenabstieg weniger effizient gelöst werden.,

Tatsächlich können die meisten Modelle für maschinelles Lernen unter dem Maximum Likelihood Estimation Framework zusammengefasst werden, was eine nützliche und konsistente Möglichkeit bietet, die Vorhersagemodellierung als Optimierungsproblem anzugehen.

Ein wichtiger Vorteil des Maximize Likelihood Estimators beim maschinellen Lernen besteht darin, dass sich die Qualität des Schätzers mit zunehmender Größe des Datensatzes weiter verbessert.

Weiterlesen

Dieser Abschnitt enthält mehr Ressourcen zum Thema, wenn Sie tiefer gehen möchten.

Bücher

Kapitel 5 Grundlagen des maschinellen Lernens, Deep Learning, 2016.,
Kapitel 2 Wahrscheinlichkeitsverteilungen, Mustererkennung und maschinelles Lernen, 2006.
Kapitel 8 Modellinferenz und Mittelwertbildung, Die Elemente des statistischen Lernens, 2016.
Kapitel 9 Probabilistische Methoden, Data Mining: Praktische Tools und Techniken für maschinelles Lernen, 4. Auflage, 2016.
Kapitel 22 Maximum-Likelihood-und Clustering, Informationstheorie Inferenz und Lernalgorithmen, 2003.
Kapitel 8 Lernverteilungen, Bayesisches Denken und maschinelles Lernen, 2011.

Artikel

Maximum-likelihood-Schätzung, Wikipedia.,
Maximale Wahrscheinlichkeit, Wolfram MathWorld.
Wahrscheinlichkeitsfunktion, Wikipedia.
Einige Probleme beim Verständnis der Definition einer Funktion in einer Methode mit maximaler Wahrscheinlichkeit, CrossValidated.

Zusammenfassung

In diesem Beitrag haben Sie eine sanfte Einführung in die Schätzung der maximalen Wahrscheinlichkeit entdeckt.

Speziell haben Sie gelernt:

Die Schätzung der maximalen Wahrscheinlichkeit ist ein probabilistischer Rahmen zur Lösung des Problems der Dichteschätzung.,
Es geht darum, eine Wahrscheinlichkeitsfunktion zu maximieren, um die Wahrscheinlichkeitsverteilung und Parameter zu finden, die die beobachteten Daten am besten erklären.
Es bietet ein Framework für die prädiktive Modellierung im maschinellen Lernen, bei dem das Finden von Modellparametern als Optimierungsproblem dargestellt werden kann.

haben Sie Fragen?
stellen Sie Ihre Fragen in den Kommentaren unten und ich werde mein bestes tun zu beantworten.

Holen Sie sich einen Griff über die Wahrscheinlichkeit für maschinelles Lernen!,

Entwickeln Sie Ihr Verständnis von Wahrscheinlichkeit

…mit nur ein paar Zeilen Python-Code

Entdecken Sie, wie in meinem neuen Ebook:
Wahrscheinlichkeit für maschinelles Lernen

Es bietet Selbststudium Tutorials und End-to-End-Projekte auf:
Bayes Theorem, Bayesian Optimierung, Verteilungen, Maximale Wahrscheinlichkeit, Querentropie, Kalibrieren von Modellen
und vieles mehr…

Nutzen Sie endlich die Unsicherheit in Ihren Projekten

Überspringen Sie die Akademiker. Nur Ergebnisse.Sehen, Was drin ist

Tweet teilen Teilen