Una introducción suave a la estimación de máxima verosimilitud para aprendizaje automático

Tweet Share Share

última actualización el 5 de noviembre de 2019

La estimación de densidad es el problema de estimar la distribución de probabilidad para una muestra de observaciones de un dominio problemático.

Hay muchas técnicas para resolver la estimación de densidad, aunque un marco común utilizado en todo el campo del aprendizaje automático es la estimación de máxima verosimilitud., La estimación de máxima verosimilitud implica definir una función de verosimilitud para calcular la probabilidad condicional de observar la muestra de datos dada una distribución de probabilidad y parámetros de distribución. Este enfoque se puede utilizar para buscar un espacio de posibles distribuciones y parámetros.,

Este marco probabilístico flexible también proporciona la base para muchos algoritmos de aprendizaje automático, incluidos métodos importantes como la regresión lineal y la regresión logística para predecir valores numéricos y etiquetas de clase respectivamente, pero también más generalmente para redes neuronales artificiales de aprendizaje profundo.

en este post, descubrirás una introducción suave a la estimación de máxima verosimilitud.

Después de leer este post, sabrás:

La estimación de máxima verosimilitud es un marco probabilístico para resolver el problema de la estimación de densidad.,
implica maximizar una función de verosimilitud para encontrar la distribución de probabilidad y los parámetros que mejor explican los datos observados.
proporciona un marco para el modelado predictivo en el aprendizaje automático donde la búsqueda de parámetros del modelo se puede enmarcar como un problema de optimización.

inicia tu proyecto con My new book Probability for Machine Learning, que incluye tutoriales paso a paso y los archivos de código fuente de Python para todos los ejemplos.

comencemos.,

Una introducción suave a la estimación de máxima verosimilitud para el aprendizaje automático
foto de Guilhem Vellut, algunos derechos reservados.

Descripción general

este tutorial se divide en tres partes; son:

problema de estimación de densidad de probabilidad
estimación de máxima verosimilitud
Relación con el aprendizaje automático

problema de estimación de densidad de probabilidad

un problema común de modelado implica cómo estimar una distribución de probabilidad conjunta para un conjunto de datos.,

por ejemplo, dada una muestra de observación (X) de un dominio (x1, x2, x3, …, xn), donde cada observación se dibuja independientemente del dominio con la misma distribución de probabilidad (llamada independiente e idénticamente distribuida, I.i.d., O cercana a él).

la estimación de densidad implica seleccionar una función de distribución de probabilidad y los parámetros de esa distribución que mejor explican la distribución de probabilidad conjunta de los datos observados (X).

¿Cómo se elige la función de distribución de probabilidad?,
¿Cómo se eligen los parámetros para la función de distribución de probabilidad?

este problema se hace más difícil ya que la muestra (X) extraída de la población es pequeña y tiene ruido, lo que significa que cualquier evaluación de una función de densidad de probabilidad estimada y sus parámetros tendrá algún error.

Hay muchas técnicas para resolver este problema, aunque dos enfoques comunes son:

Maximum a Posteriori (MAP), un método Bayesiano.
estimación de máxima verosimilitud (MLE), método frecuentista.,

la principal diferencia es que MLE asume que todas las soluciones son igualmente probables de antemano, mientras que MAP permite aprovechar la información previa sobre la forma de la solución.

en este post, echaremos un vistazo más de cerca al método MLE y su relación con el aprendizaje automático aplicado.

quiero aprender la probabilidad para el aprendizaje automático

tome mi curso intensivo de correo electrónico gratuito de 7 días ahora (con código de muestra).

Haga clic para inscribirse y también obtenga una versión gratuita en PDF del curso.,

descargue su Mini-Curso Gratuito

estimación de máxima verosimilitud

una solución para la estimación de densidad de probabilidad se conoce como estimación de máxima verosimilitud, o MLE para abreviar.

La estimación de máxima verosimilitud implica tratar el problema como un problema de optimización o búsqueda, donde buscamos un conjunto de parámetros que resulte en el mejor ajuste para la probabilidad conjunta de la muestra de datos (X).,

primero, implica definir un parámetro llamado theta que define tanto la elección de la función de densidad de probabilidad como los parámetros de esa distribución. Puede ser un vector de valores numéricos cuyos valores cambian suavemente y se asignan a diferentes distribuciones de probabilidad y sus parámetros.,

en la estimación de máxima verosimilitud, deseamos maximizar la probabilidad de observar los datos de la distribución de probabilidad conjunta dada una distribución de probabilidad específica y sus parámetros, declarados formalmente como:

P(X | theta)

Esta probabilidad condicional se indica a menudo utilizando la notación punto y coma (;) en lugar de la notación de barras (|) porque theta no es una variable aleatoria, sino un parámetro desconocido., Por ejemplo:

P (X; theta)

P(x1, x2, x3, TH, xn ; theta)

Esta probabilidad condicional resultante se conoce como la probabilidad de observar los datos dados los parámetros del modelo y escrita usando la notación L () para denotar la función de verosimilitud. Por ejemplo:

L(X ; theta)

el objetivo de la estimación de máxima verosimilitud es encontrar el conjunto de parámetros (theta) que maximizan la función de verosimilitud, por ejemplo, el resultado en el mayor valor de verosimilitud.,

maximize L (X ; theta)

podemos descomprimir la probabilidad condicional calculada por la función de verosimilitud.

dado que la muestra está compuesta por N ejemplos, podemos enmarcar esto como la probabilidad conjunta de las muestras de datos observadas x1, x2, x3, …, xn en X dados los parámetros de distribución de probabilidad (theta).

L(x1, x2, x3, TH, xn ; theta)

la distribución de probabilidad conjunta se puede replantear como la multiplicación de la probabilidad condicional para observar cada ejemplo dados los parámetros de distribución.,

product I to n P(xi ; theta)

multiplicar muchas probabilidades pequeñas juntas puede ser numéricamente inestable en la práctica, por lo tanto, es común replantear este problema como la suma de las probabilidades condicionales de registro de observar cada ejemplo dados los parámetros del modelo.

sum i to n log(P(xi ; theta))

donde log con base-e llamado logaritmo natural se usa comúnmente.

Este producto en muchas probabilidades puede ser inconveniente, es propenso a un flujo inferior numérico., Para obtener un problema de optimización más conveniente pero equivalente, observamos que tomar el logaritmo de la verosimilitud no Cambia su arg max sino que transforma convenientemente un producto en una suma

— página 132, Deep Learning, 2016.

dado el uso frecuente de log en la función de verosimilitud, se le conoce comúnmente como una función de log-verosimilitud.

es común en los problemas de optimización preferir minimizar la función de costo, en lugar de maximizarla., Por lo tanto, se utiliza el negativo de la función de log-verosimilitud, conocida generalmente como una función de Log-verosimilitud negativa (NLL).

minimize-sum i to n log(P(xi ; theta))

en el software, a menudo expresamos tanto como minimizar una función de costo. La máxima verosimilitud se convierte así en la minimización de la log-verosimilitud negativa (NLL)

— página 133, Deep Learning, 2016.

relación con el aprendizaje automático

Este problema de estimación de densidad está directamente relacionado con el aprendizaje automático aplicado.,

podemos enmarcar el problema de ajustar un modelo de aprendizaje automático como el problema de la estimación de la densidad de probabilidad. Específicamente, la elección del modelo y los parámetros del modelo se conoce como hipótesis de modelado h, y el problema consiste en encontrar h que mejor explica los datos X.

P(X ; h)

podemos, por lo tanto, encontrar la hipótesis de modelado que maximiza la función de verosimilitud.,

maximize L(X ; h)

Or, more fully:

maximize sum i to n log(P (xi ; h))

This provides the basis for estimating the probability density of a dataset, typically used in unsupervised machine learning algorithms; for example:

Clustering algorithms.

usar la probabilidad conjunta de registro esperada como una cantidad clave para aprender en un modelo de probabilidad con variables ocultas es mejor conocido en el contexto de la célebre» maximización de expectativas » o algoritmo EM.,

– Page 365, Data Mining: Practical Machine Learning Tools and Techniques, 4th edition, 2016.

El marco de estimación de máxima verosimilitud también es una herramienta útil para el aprendizaje automático supervisado.

esto se aplica a los datos donde tenemos variables de entrada y salida, donde la variación de salida puede ser un valor numérico o una etiqueta de clase en el caso de la regresión y el modelado predictivo de clasificación retrospectivamente.

podemos afirmar esto como la probabilidad condicional de la salida (y) dada la entrada (X) dada la hipótesis de modelado (h).,

maximize L(Y|X ; h)

Or, more fully:

maximize sum i to n log(P(Yi|xi ; h))

el estimador de máxima verosimilitud puede generalizarse fácilmente para el caso en el que nuestro objetivo es estimar una probabilidad condicional P(y | x ; theta) en orden para predecir y dado X. esta es en realidad la situación más común porque forma la base para la mayoría del aprendizaje supervisado.

– página 133, aprendizaje profundo, 2016.,

esto significa que el mismo marco de estimación de máxima verosimilitud que se utiliza generalmente para la estimación de la densidad se puede utilizar para encontrar un modelo de aprendizaje supervisado y parámetros.

esto proporciona la base para técnicas fundacionales de modelado lineal, tales como:

regresión lineal, para predecir un valor numérico.
regresión logística, para clasificación binaria.

en el caso de la regresión lineal, el modelo se restringe a una línea e implica encontrar un conjunto de coeficientes para la línea que mejor se ajuste a los datos observados., Afortunadamente, este problema se puede resolver analíticamente (por ejemplo, directamente usando álgebra lineal).

en el caso de la regresión logística, el modelo define una línea e implica encontrar un conjunto de coeficientes para la línea que mejor separa las clases. Esto no se puede resolver analíticamente y a menudo se resuelve buscando el espacio de posibles valores de coeficiente utilizando un algoritmo de optimización eficiente como el algoritmo BFGS o variantes.

ambos métodos también se pueden resolver de manera menos eficiente utilizando un algoritmo de optimización más general, como el descenso de gradiente estocástico.,

de hecho, la mayoría de los modelos de aprendizaje automático se pueden enmarcar bajo el marco de estimación de máxima verosimilitud, lo que proporciona una forma útil y coherente de abordar el modelado predictivo como un problema de optimización.

un beneficio importante del estimador maximize likelihood en machine learning es que a medida que aumenta el tamaño del conjunto de datos, la calidad del estimador continúa mejorando.

más información

esta sección proporciona más recursos sobre el tema si desea profundizar.

libros

Capítulo 5 Fundamentos del aprendizaje automático, aprendizaje profundo, 2016.,
Capítulo 2 distribuciones de probabilidad, reconocimiento de patrones y aprendizaje automático, 2006.
inferencia y promediación del modelo del Capítulo 8, los elementos del aprendizaje estadístico, 2016.
Chapter 9 Probabilistic methods, Data Mining: Practical Machine Learning Tools and Techniques, 4th edition, 2016.
Capítulo 22 maximum Likelihood and Clustering, Information Theory, Inference and Learning Algorithms, 2003.
Capítulo 8 distribuciones de aprendizaje, razonamiento Bayesiano y aprendizaje automático, 2011.

Artículos

estimación de Máxima verosimilitud, la Wikipedia.,
máxima verosimilitud, Wolfram MathWorld.
Función de verosimilitud, Wikipedia.
Algunos problemas para entender la definición de una función en un método de máxima verosimilitud, validación cruzada.

resumen

en este post, descubriste una introducción suave a la estimación de máxima verosimilitud.

Específicamente, aprendiste:

La estimación de máxima verosimilitud es un marco probabilístico para resolver el problema de la estimación de densidad.,
implica maximizar una función de verosimilitud para encontrar la distribución de probabilidad y los parámetros que mejor explican los datos observados.
proporciona un marco para el modelado predictivo en el aprendizaje automático donde la búsqueda de parámetros del modelo se puede enmarcar como un problema de optimización.

¿tiene alguna pregunta?Haga sus preguntas en los comentarios a continuación y haré mi mejor esfuerzo para responder.

Conseguir una Manija en la Probabilidad para el Aprendizaje de Máquina!,

desarrolle su comprensión de la probabilidad

…con solo unas pocas líneas de código python

descubre cómo en mi nuevo Ebook:
probabilidad para aprendizaje automático

proporciona tutoriales de autoaprendizaje y proyectos de extremo a extremo sobre:
Teorema de Bayes, optimización Bayesiana, distribuciones, máxima verosimilitud, entropía cruzada, modelos de calibración
y mucho más…

finalmente aprovecha la incertidumbre en tus proyectos

Sáltate lo académico. Sólo Resultados.Ver Lo que está Dentro de

Tweet Compartir Compartir