Una delicata introduzione alla stima della massima verosimiglianza per l'apprendimento automatico

Tweet Share Share

Ultimo aggiornamento il 5 novembre 2019

La stima della densità è il problema di stimare la distribuzione di probabilità per un campione di osservazioni da un dominio problematico.

Esistono molte tecniche per risolvere la stima della densità, sebbene un framework comune utilizzato in tutto il campo dell’apprendimento automatico sia la stima della massima verosimiglianza., La stima della massima verosimiglianza comporta la definizione di una funzione di verosimiglianza per calcolare la probabilità condizionale di osservare il campione di dati dato una distribuzione di probabilità e parametri di distribuzione. Questo approccio può essere utilizzato per cercare uno spazio di possibili distribuzioni e parametri.,

Questo framework probabilistico flessibile fornisce anche le basi per molti algoritmi di apprendimento automatico, inclusi metodi importanti come la regressione lineare e la regressione logistica per la previsione rispettivamente di valori numerici e etichette di classe, ma anche più in generale per reti neurali artificiali di apprendimento profondo.

In questo post, scoprirai una delicata introduzione alla stima della massima verosimiglianza.

Dopo aver letto questo post, saprai:

La stima della massima verosimiglianza è un framework probabilistico per risolvere il problema della stima della densità.,
Si tratta di massimizzare una funzione di verosimiglianza al fine di trovare la distribuzione di probabilità e parametri che meglio spiegano i dati osservati.
Fornisce un framework per la modellazione predittiva nell’apprendimento automatico in cui trovare i parametri del modello può essere inquadrato come un problema di ottimizzazione.

Avvia il tuo progetto con il mio nuovo libro Probability for Machine Learning, inclusi tutorial passo-passo e i file di codice sorgente Python per tutti gli esempi.

Iniziamo.,

Una delicata introduzione alla stima della massima verosimiglianza per l’apprendimento automatico
Foto di Guilhem Vellut, alcuni diritti riservati.

Descrizione

Questo tutorial è diviso in tre parti, che sono:

Problema di Densità di Probabilità Stima
la Stima di Massima Verosimiglianza
la Relazione di Apprendimento automatico

Problema di Densità di Probabilità Stima

Un comune problema della modellazione comporta come stimare una probabilità congiunta di distribuzione per un set di dati.,

Ad esempio, dato un campione di osservazione (X) da un dominio (x1, x2, x3,…, xn), dove ogni osservazione viene disegnata indipendentemente dal dominio con la stessa distribuzione di probabilità (cosiddetta indipendente e identicamente distribuito, i.i.d., o vicino ad esso).

La stima della densità comporta la selezione di una funzione di distribuzione di probabilità e dei parametri di quella distribuzione che meglio spiegano la distribuzione di probabilità congiunta dei dati osservati (X).

Come si sceglie la funzione di distribuzione di probabilità?,
Come si scelgono i parametri per la funzione di distribuzione di probabilità?

Questo problema è reso più impegnativo poiché il campione (X) tratto dalla popolazione è piccolo e ha rumore, il che significa che qualsiasi valutazione di una funzione di densità di probabilità stimata e dei suoi parametri avrà qualche errore.

Esistono molte tecniche per risolvere questo problema, sebbene due approcci comuni siano:

Maximum a Posteriori (MAP), un metodo bayesiano.
Stima di massima verosimiglianza (MLE), metodo frequentista.,

La differenza principale è che MLE presuppone che tutte le soluzioni siano ugualmente probabili in anticipo, mentre MAP consente informazioni preliminari sulla forma della soluzione da sfruttare.

In questo post, daremo un’occhiata più da vicino al metodo MLE e alla sua relazione con l’apprendimento automatico applicato.

Vuoi imparare la probabilità per l’apprendimento automatico

Prendi il mio corso accelerato gratuito di 7 giorni (con codice di esempio).

Fare clic per iscriversi e anche ottenere una versione PDF Ebook gratuito del corso.,

Scarica il tuo Mini-corso GRATUITO

Stima della massima verosimiglianza

Una soluzione alla stima della densità di probabilità è indicata come Stima della massima verosimiglianza, o MLE in breve.

La stima della massima verosimiglianza comporta il trattamento del problema come un problema di ottimizzazione o di ricerca, in cui cerchiamo un insieme di parametri che si traduca nella misura migliore per la probabilità congiunta del campione di dati (X).,

Innanzitutto, si tratta di definire un parametro chiamato theta che definisce sia la scelta della funzione di densità di probabilità che i parametri di quella distribuzione. Può essere un vettore di valori numerici i cui valori cambiano senza problemi e si mappano a diverse distribuzioni di probabilità e ai loro parametri.,

Nella Stima di Massima Verosimiglianza, si vuole massimizzare la probabilità di osservare i dati del comune di distribuzione di probabilità data una certa distribuzione di probabilità e dei suoi parametri, ha dichiarato formalmente come:

P(X | theta)

Questa probabilità condizionata è spesso indicato usare il punto e virgola (;) notazione invece della barra di notazione (|) perché theta non è una variabile casuale, ma invece un parametro sconosciuto., Per esempio:

P(X ; theta)

P(x1, x2, x3, …, xn ; theta)

Ciò determini la probabilità condizionale è definito come la probabilità di osservare i dati dei parametri del modello e scritti, utilizzando la notazione L() per indicare la funzione di verosimiglianza. Ad esempio:

L(X ; theta)

L’obiettivo della stima della massima verosimiglianza è trovare l’insieme di parametri (theta) che massimizzano la funzione di verosimiglianza, ad esempio il risultato nel valore di verosimiglianza più grande.,

massimizza L(X ; theta)

Possiamo decomprimere la probabilità condizionale calcolata dalla funzione di verosimiglianza.

Dato che il campione è composto da n esempi, possiamo inquadrarlo come la probabilità congiunta dei campioni di dati osservati x1, x2, x3, …, xn in X dati i parametri di distribuzione di probabilità (theta).

L(x1, x2, x3, …, xn ; theta)

La distribuzione di probabilità congiunta può essere rideterminata come la moltiplicazione della probabilità condizionale per osservare ciascun esempio dato i parametri di distribuzione.,

prodotto da i a n P(xi ; theta)

Moltiplicare insieme molte piccole probabilità può essere numericamente instabile nella pratica, quindi, è comune ribadire questo problema come la somma delle probabilità condizionali di log di osservare ogni esempio dato i parametri del modello.

somma i a n log(P(xi ; theta))

Dove log con base-e chiamato logaritmo naturale è comunemente usato.

Questo prodotto su molte probabilità può essere scomodo è soggetto a underflow numerico., Per ottenere un problema di ottimizzazione più conveniente ma equivalente, osserviamo che prendere il logaritmo della probabilità non cambia il suo arg max ma trasforma convenientemente un prodotto in una somma

— Page 132, Deep Learning, 2016.

Dato l’uso frequente di log nella funzione di verosimiglianza, viene comunemente definita funzione di verosimiglianza di log.

È comune nei problemi di ottimizzazione preferire ridurre al minimo la funzione di costo, piuttosto che massimizzarla., Pertanto, viene utilizzato il negativo della funzione log-verosimiglianza, generalmente indicato come funzione Log-Verosimiglianza negativa (NLL).

minimize-sum i to n log(P(xi ; theta))

Nel software, spesso definiamo sia come minimizzazione di una funzione di costo. La massima verosimiglianza diventa quindi la minimizzazione del log-likelihood negativo (NLL)

— Pagina 133, Deep Learning, 2016.

Relazione con l’apprendimento automatico

Questo problema di stima della densità è direttamente correlato all’apprendimento automatico applicato.,

Possiamo inquadrare il problema di adattare un modello di apprendimento automatico come il problema della stima della densità di probabilità. Nello specifico, la scelta del modello e dei parametri del modello è indicata come ipotesi di modellazione h, e il problema consiste nel trovare h che meglio spiega i dati X.

P(X ; h)

Possiamo, quindi, trovare l’ipotesi di modellazione che massimizza la funzione di verosimiglianza.,

massimizzare L(X ; h)

O, in modo più completo:

massimizzare la somma di n log(P(xi ; h))

Questo fornisce la base per la stima della densità di probabilità di un set di dati, tipicamente utilizzato in incustoditi algoritmi di machine learning; per esempio:

algoritmi di Clustering.

L’utilizzo della probabilità congiunta del log atteso come quantità chiave per l’apprendimento in un modello di probabilità con variabili nascoste è meglio conosciuto nel contesto della celebre “massimizzazione delle aspettative” o algoritmo EM.,

— Pagina 365, Data Mining: Practical Machine Learning Tools and Techniques, 4th edition, 2016.

Il framework di stima della massima verosimiglianza è anche uno strumento utile per l’apprendimento automatico supervisionato.

Questo vale per i dati in cui abbiamo variabili di input e output, in cui la variazione di output può essere un valore numerico o un’etichetta di classe nel caso di modellazione predittiva di regressione e classificazione retrospettivamente.

Possiamo affermare questo come la probabilità condizionale dell’output (y) dato l’input (X) data l’ipotesi di modellazione (h).,

massimizzare L(y|X ; h)

O, in modo più completo:

massimizzare la somma di n log(P(yi|xi ; h)

Lo stimatore di massima verosimiglianza può essere generalizzato al caso in cui il nostro obiettivo è quello di stimare una probabilità condizionale P(y | x ; theta), al fine di prevedere y dato x. Questo è in realtà la situazione più comune, perché costituisce la base per la maggior parte di apprendimento supervisionato.

— Pagina 133, Deep Learning, 2016.,

Ciò significa che lo stesso framework di stima della massima verosimiglianza generalmente utilizzato per la stima della densità può essere utilizzato per trovare un modello e parametri di apprendimento supervisionati.

Questo fornisce la base per le tecniche di modellazione lineare fondamentali, come ad esempio:

Regressione lineare, per la previsione di un valore numerico.
Regressione logistica, per la classificazione binaria.

Nel caso della regressione lineare, il modello è vincolato a una linea e comporta la ricerca di un insieme di coefficienti per la linea che meglio si adatta ai dati osservati., Fortunatamente, questo problema può essere risolto analiticamente (ad esempio utilizzando direttamente l’algebra lineare).

Nel caso della regressione logistica, il modello definisce una linea e comporta la ricerca di un insieme di coefficienti per la linea che meglio separa le classi. Questo non può essere risolto analiticamente e viene spesso risolto cercando lo spazio dei possibili valori di coefficiente utilizzando un algoritmo di ottimizzazione efficiente come l’algoritmo o le varianti BFGS.

Entrambi i metodi possono anche essere risolti in modo meno efficiente utilizzando un algoritmo di ottimizzazione più generale come la discesa del gradiente stocastico.,

In effetti, la maggior parte dei modelli di apprendimento automatico può essere inquadrata nel quadro di stima della massima verosimiglianza, fornendo un modo utile e coerente per affrontare la modellazione predittiva come un problema di ottimizzazione.

Un importante vantaggio dello stimatore di probabilità di massimizzazione nell’apprendimento automatico è che all’aumentare della dimensione del set di dati, la qualità dello stimatore continua a migliorare.

Ulteriori letture

Questa sezione fornisce più risorse sull’argomento se stai cercando di approfondire.

Libri

Capitolo 5 Nozioni di base di apprendimento automatico, Apprendimento profondo, 2016.,
Capitolo 2 Distribuzioni di probabilità, Pattern Recognition e Machine Learning, 2006.
Capitolo 8 Modello di inferenza e media, Gli elementi di apprendimento statistico, 2016.
Capitolo 9 Metodi probabilistici, Data Mining: strumenti e tecniche pratiche di Machine Learning, 4a edizione, 2016.
Capitolo 22 Maximum Likelihood and Clustering, Information Theory, Inference and Learning Algorithms, 2003.
Capitolo 8 Distribuzioni di apprendimento, ragionamento bayesiano e apprendimento automatico, 2011.

Articoli

Stima della massima verosimiglianza, Wikipedia.,
Massima verosimiglianza, Wolfram MathWorld.
Funzione di verosimiglianza, Wikipedia.
Alcuni problemi di comprensione della definizione di una funzione in un metodo di massima verosimiglianza, CrossValidated.

Sommario

In questo post, hai scoperto una delicata introduzione alla stima della massima verosimiglianza.

In particolare, hai imparato:

La stima della massima verosimiglianza è un framework probabilistico per risolvere il problema della stima della densità.,
Si tratta di massimizzare una funzione di verosimiglianza al fine di trovare la distribuzione di probabilità e parametri che meglio spiegano i dati osservati.
Fornisce un framework per la modellazione predittiva nell’apprendimento automatico in cui trovare i parametri del modello può essere inquadrato come un problema di ottimizzazione.

Hai qualche domanda?
Fai le tue domande nei commenti qui sotto e farò del mio meglio per rispondere.

Ottieni un handle sulla probabilità per l’apprendimento automatico!,

Sviluppa la tua comprensione della probabilità

…con poche righe di codice python

Scopri come nel mio nuovo Ebook:
Probabilità per l’apprendimento automatico

Fornisce tutorial di autoapprendimento e progetti end-to-end su:
Teorema di Bayes, Ottimizzazione bayesiana, distribuzioni, Massima verosimiglianza, Cross-Entropia, modelli di calibrazione
e molto altro ancora…

Infine Sfrutta l’incertezza nei tuoi progetti

Salta gli accademici. Solo risultati.Scopri cosa c’è dentro

Tweet Condividi Condividi