A Gentle Introduction to Maximum Likelihood Estimation for Machine Learning

Tweet Share Share

dernière mise à jour le novembre 5, 2019

L’estimation de la densité est le problème de l’estimation de la distribution de probabilité pour un échantillon d’observations d’un domaine problématique.

Il existe de nombreuses techniques pour résoudre l’estimation de la densité, bien qu’un cadre commun utilisé dans tout le domaine de l’apprentissage automatique soit l’estimation du maximum de vraisemblance., L’estimation du maximum de vraisemblance consiste à définir une fonction de vraisemblance pour calculer la probabilité conditionnelle d’observer l’échantillon de données compte tenu d’une distribution de probabilité et de paramètres de distribution. Cette approche peut être utilisée pour rechercher un espace de distributions et de paramètres possibles.,

Ce cadre probabiliste flexible fournit également la base de nombreux algorithmes d’apprentissage automatique, y compris des méthodes importantes telles que la régression linéaire et la régression logistique pour prédire respectivement les valeurs numériques et les étiquettes de classe, mais aussi plus généralement pour les réseaux de neurones artificiels d’apprentissage profond.

dans cet article, vous découvrirez une introduction douce à l’estimation du maximum de vraisemblance.

Après avoir lu ce post, vous saurez:

L’Estimation du maximum de vraisemblance est un cadre probabiliste pour résoudre le problème de l’estimation de la densité.,
Il s’agit de maximiser une fonction de vraisemblance afin de trouver la distribution de probabilité et les paramètres qui expliquent le mieux les données observées.
Il fournit un cadre pour la modélisation prédictive dans l’apprentissage automatique où la recherche de paramètres de modèle peut être encadrée comme un problème d’optimisation.

lancez votre projet avec mon nouveau livre Probability for Machine Learning, y compris des tutoriels étape par étape et les fichiers de code source Python pour tous les exemples.

nous allons commencer.,

Une Introduction douce à L’Estimation du maximum de vraisemblance pour L’apprentissage automatique
Photo de Guilhem Vellut, certains droits sont réservés.

aperçu

Ce tutoriel est divisé en trois parties:

problème de L’Estimation de la densité de probabilité
Estimation du maximum de vraisemblance
relation avec L’apprentissage automatique

problème de L’Estimation de la densité de probabilité

Un Problème de modélisation courant consiste à estimer une distribution de probabilité conjointe pour un ensemble de données.,

par exemple, étant donné un échantillon d’observation (X) d’un domaine (x1, x2, x3, …, xn), où chaque observation est tirée indépendamment du domaine avec la même distribution de probabilité (dite indépendante et identiquement distribuée, I. I. D., ou proche de celui-ci).

l’estimation de la densité consiste à sélectionner une fonction de distribution de probabilité et les paramètres de cette distribution qui expliquent le mieux la distribution de probabilité conjointe des données observées (X).

Comment choisissez-vous la fonction de distribution de probabilité?,
Comment vous choisissez les paramètres de la fonction de distribution de probabilité?

ce problème est rendu plus difficile car l’échantillon (X) tiré de la population est petit et comporte du bruit, ce qui signifie que toute évaluation d’une fonction de densité de probabilité estimée et de ses paramètres comportera une erreur.

Il existe de nombreuses techniques pour résoudre ce problème, bien que deux approches communes soient:

maximum a Posteriori (MAP), une méthode Bayésienne.
Estimation du maximum de vraisemblance (MLE), méthode fréquentiste.,

la principale différence est que MLE suppose que toutes les solutions sont également probables au préalable, alors que MAP permet d’obtenir des informations préalables sur la forme de la solution à exploiter.

dans cet article, nous examinerons de plus près la méthode MLE et sa relation avec l’apprentissage automatique appliqué.

vous voulez apprendre la probabilité pour L’apprentissage automatique

suivez mon cours intensif de messagerie gratuit de 7 jours maintenant (avec un exemple de code).

Cliquez pour vous inscrire et obtenez également une version Ebook PDF gratuite du cours.,

Téléchargez votre Mini-cours gratuit

estimation du maximum de vraisemblance

Une solution à l’estimation de la densité de probabilité est appelée Estimation du maximum de vraisemblance, ou MLE en abrégé.

L’Estimation du maximum de vraisemblance consiste à traiter le problème comme un problème d’optimisation ou de recherche, où nous recherchons un ensemble de paramètres qui correspond le mieux à la probabilité conjointe de l’échantillon de données (X).,

Tout d’abord, il s’agit de définir un paramètre appelé thêta qui définit à la fois le choix de la fonction de densité de probabilité et les paramètres de cette distribution. Il peut s’agir d’un vecteur de valeurs numériques dont les valeurs changent en douceur et correspondent à différentes distributions de probabilité et à leurs paramètres.,

dans L’Estimation du maximum de vraisemblance, nous souhaitons maximiser la probabilité d’observer les données de la distribution de probabilité conjointe étant donné une distribution de probabilité spécifique et ses paramètres, énoncés formellement comme suit:

P(X | thêta)

cette probabilité conditionnelle est souvent énoncée en utilisant la notation point-virgule (;) au lieu de la notation à barres (|) parce que thêta n’est pas une variable aléatoire, mais plutôt un paramètre inconnu., Par exemple:

P(X ; thêta)

P(x1, x2, x3, …, xn ; thêta)

cette probabilité conditionnelle résultante est appelée la probabilité d’observer les données compte tenu des paramètres du modèle et écrite en utilisant la notation L() pour désigner la fonction de vraisemblance. Par exemple:

L(X ; thêta)

L’objectif de L’Estimation du maximum de vraisemblance est de trouver l’ensemble des paramètres (thêta) qui maximisent la fonction de vraisemblance, par exemple le résultat dans la plus grande valeur de vraisemblance.,

maximiser L(X ; thêta)

Nous pouvons décompresser la probabilité conditionnelle calculée par la fonction de vraisemblance.

étant donné que l’échantillon est composé de n exemples, nous pouvons considérer cela comme la probabilité conjointe des échantillons de données observées x1, x2, x3, …, xn dans X étant donné les paramètres de distribution de probabilité (thêta).

L(x1, x2, x3, …, xn ; thêta)

la distribution de probabilité conjointe peut être retraitée comme la multiplication de la probabilité conditionnelle pour observer chaque exemple étant donné les paramètres de distribution.,

produit i À n P(xi ; thêta)

multiplier plusieurs petites probabilités ensemble peut être numériquement instable dans la pratique, par conséquent, il est courant de reformuler ce problème comme la somme des probabilités conditionnelles logarithmiques d’observer chaque exemple étant donné les paramètres du modèle.

somme i À n log(P(xi ; thêta))

où log avec base-e appelé logarithme naturel est couramment utilisé.

ce produit sur de nombreuses probabilités peut être gênant, il est sujet à un sous-débit numérique., Pour obtenir un problème d’optimisation plus pratique mais équivalent, nous observons que prendre le logarithme de la probabilité ne change pas son arg max mais transforme commodément un produit en une somme

— Page 132, Deep Learning, 2016.

étant donné l’utilisation fréquente de log dans la fonction de vraisemblance, elle est communément appelée fonction log-vraisemblance.

Il est courant dans les problèmes d’optimisation de préférer minimiser la fonction de coût, plutôt que de la maximiser., Par conséquent, le négatif de la fonction log-vraisemblance est utilisé, appelé généralement une fonction Log-vraisemblance négative (NLL).

minimize-sum i to n log(P(xi ; theta))

dans les logiciels, nous formulons souvent les deux comme minimisant une fonction de coût. Le maximum de vraisemblance devient donc la minimisation de la log-vraisemblance négative (NLL)

— Page 133, Deep Learning, 2016.

relation avec L’apprentissage automatique

ce problème d’estimation de la densité est directement lié à l’apprentissage automatique appliqué.,

Nous pouvons définir le problème de l’ajustement d’un modèle d’apprentissage automatique comme le problème de l’estimation de la densité de probabilité. Plus précisément, le choix du modèle et des paramètres du modèle est appelé hypothèse de modélisation h, et le problème consiste à trouver h qui explique le mieux les données X.

P(X ; h)

Nous pouvons donc trouver l’hypothèse de modélisation qui maximise la fonction de vraisemblance.,

maximize L(X ; h)

ou, plus complètement:

maximize sum I to n log(P(xi ; h))

ceci fournit la base pour estimer la densité de probabilité d’un ensemble de données, généralement utilisée dans les algorithmes d’apprentissage automatique non supervisés; par exemple:

algorithmes de Clustering.

L’utilisation de la probabilité logarithmique attendue comme quantité clé pour l’apprentissage dans un modèle de probabilité avec des variables cachées est mieux connue dans le contexte du célèbre algorithme « expectation maximization” ou em.,

— la Page 365, l’Exploration de Données: cas Pratique d’Apprentissage de la Machine Outils et de Techniques, 4e édition, en 2016.

le cadre D’Estimation du maximum de vraisemblance est également un outil utile pour l’apprentissage automatique supervisé.

cela s’applique aux données où nous avons des variables d’entrée et de sortie, où la variation de sortie peut être une valeur numérique ou une étiquette de classe dans le cas de la régression et de la modélisation prédictive de classification rétrospectivement.

Nous pouvons l’indiquer comme la probabilité conditionnelle de la sortie (y) étant donné l’entrée (X) étant donné l’hypothèse de modélisation (h).,

maximize L(y/X ; h)

ou, plus complètement:

maximize sum I to n log(P(yi/xi ; h))

l’estimateur du maximum de vraisemblance peut facilement être généralisé au cas où notre objectif est d’estimer une probabilité conditionnelle afin de prédire y donné X. c’est en fait la situation la plus courante car elle constitue la base de la plupart des apprentissages supervisés.

— Page 133, apprentissage profond, 2016.,

cela signifie que le même cadre D’Estimation du maximum de vraisemblance généralement utilisé pour l’estimation de la densité peut être utilisé pour trouver un modèle d’apprentissage supervisé et des paramètres.

ceci fournit la base des techniques fondamentales de modélisation linéaire, telles que:

régression linéaire, pour prédire une valeur numérique.
régression logistique, pour la classification binaire.

dans le cas de la régression linéaire, le modèle est contraint à une droite et implique de trouver un ensemble de coefficients pour la droite qui correspond le mieux aux données observées., Heureusement, ce problème peut être résolu analytiquement (par exemple en utilisant directement l’algèbre linéaire).

dans le cas de la régression logistique, le modèle définit une droite et consiste à trouver un ensemble de coefficients pour la droite qui sépare le mieux les classes. Cela ne peut pas être résolu analytiquement et est souvent résolu en recherchant l’espace des valeurs de coefficients possibles à l’aide d’un algorithme d’optimisation efficace tel que L’algorithme BFGS ou des variantes.

Les deux méthodes peuvent également être résolues moins efficacement en utilisant un algorithme d’optimisation plus général tel que la descente de gradient stochastique.,

en fait, la plupart des modèles d’apprentissage automatique peuvent être encadrés dans le cadre d’estimation du maximum de vraisemblance, ce qui fournit un moyen utile et cohérent d’aborder la modélisation prédictive comme un problème d’optimisation.

Un avantage important de maximiser la probabilité de l’estimateur de l’apprentissage automatique est que la taille de la base de données augmente, la qualité de l’estimateur continue de s’améliorer.

Lecture

Cette section fournit plus de ressources sur le sujet si vous cherchez à aller plus loin.

livres

Chapitre 5 bases de L’apprentissage automatique, apprentissage en profondeur, 2016.,
Chapitre 2 Distributions de probabilité, reconnaissance de formes et apprentissage automatique, 2006.
Chapitre 8 inférence et moyenne du modèle, les éléments de L’apprentissage statistique, 2016.
Chapitre 9 méthodes probabilistes, Data Mining: outils et Techniques pratiques D’apprentissage automatique, 4e édition, 2016.
Chapitre 22 maximum de vraisemblance et Clustering, théorie de l’Information, inférence et algorithmes D’apprentissage, 2003.
Chapitre 8 distributions D’apprentissage, raisonnement bayésien et apprentissage automatique, 2011.

Articles

estimation du Maximum de vraisemblance, Wikipedia.,
maximum de vraisemblance, Wolfram MathWorld.
fonction de Vraisemblance, Wikipedia.
quelques problèmes de compréhension de la définition d’une fonction dans une méthode de maximum de vraisemblance, CrossValidated.

résumé

dans cet article, vous avez découvert une introduction douce à l’estimation du maximum de vraisemblance.

plus précisément, vous avez appris:

L’Estimation du maximum de vraisemblance est un cadre probabiliste pour résoudre le problème de l’estimation de la densité.,
Il s’agit de maximiser une fonction de vraisemblance afin de trouver la distribution de probabilité et les paramètres qui expliquent le mieux les données observées.
Il fournit un cadre pour la modélisation prédictive en apprentissage automatique où la recherche de paramètres de modèle peut être encadrée comme un problème d’optimisation.

avez-vous des questions?
Posez vos questions dans les commentaires ci-dessous et je ferai de mon mieux pour y répondre.

Obtenir une Poignée sur la Probabilité pour l’Apprentissage de la Machine!,

Développer Votre Compréhension de la Probabilité

…avec seulement quelques lignes de code python

Découvrez comment dans mon nouvel Ebook:
probabilité pour L’apprentissage automatique

Il fournit des tutoriels d’auto-étude et des projets de bout en bout sur:
théorème de Bayes, optimisation Bayésienne, Distributions, maximum de vraisemblance, entropie croisée, calibrage des modèles
et bien plus encore…

enfin exploiter L’incertitude dans vos projets

sauter les universitaires. Seulement Les Résultats.Voir Ce qui est à l’Intérieur de

Tweet partager Partager