última atualização em 5 de novembro de 2019
Densidade estimativa é o problema de estimar a distribuição de probabilidade para uma amostra de observações de um domínio problema.
Existem muitas técnicas para resolver a estimativa da densidade, embora um quadro comum usado em todo o campo de aprendizagem de máquinas é a estimativa máxima da probabilidade., A estimativa máxima da probabilidade envolve a definição de uma função de probabilidade para calcular a probabilidade condicional de observar a amostra de dados dada uma distribuição de probabilidade e parâmetros de distribuição. Esta abordagem pode ser usada para pesquisar um espaço de possíveis distribuições e parâmetros.,
Esta estrutura probabilística flexível também fornece a base para muitos algoritmos de aprendizagem de máquinas, incluindo métodos importantes como regressão linear e regressão logística para prever valores numéricos e etiquetas de classe respectivamente, mas também mais geralmente para redes neurais artificiais de aprendizagem profunda.neste post, irá descobrir uma introdução suave à estimativa máxima da probabilidade.
Após ler este post, você saberá:
- A estimativa máxima da probabilidade é uma estrutura probabilística para resolver o problema da estimativa da densidade.,
- envolve a maximização de uma função de probabilidade, a fim de encontrar a distribuição de probabilidade e os parâmetros que melhor explicam os dados observados.
- Ele fornece um framework para modelagem preditiva na aprendizagem de máquinas onde encontrar Parâmetros de modelo pode ser enquadrado como um problema de otimização.
kick-start o seu projecto com a minha nova probabilidade de livro para a aprendizagem de máquinas, incluindo tutoriais passo-a-passo e os ficheiros de código-fonte Python para todos os exemplos.vamos começar.,
Uma Suave Introdução a Estimativa de Máxima Verossimilhança para a Máquina de Aprendizagem
Foto Guilhem Vellut, alguns direitos reservados.
Descrição
Este tutorial está dividido em três partes; são eles:
- o Problema da Estimativa da Densidade de Probabilidade
- Estimativa de Máxima Verossimilhança
- Relação com a Máquina de Aprendizagem
Problema da Estimativa da Densidade de Probabilidade
comum de problema de modelagem envolve como estimar um conjunto de distribuição de probabilidade para um conjunto de dados.,
Por exemplo, dada uma amostra de observação (X) de um domínio (x1, x2, x3, …, xn), onde cada observação é desenhado de forma independente do domínio, com a mesma distribuição de probabilidade (os chamados independentes e identicamente distribuídas, eu.eu.d. ou perto disso).
A estimativa da densidade envolve a seleção de uma função de distribuição de probabilidade e os parâmetros dessa distribuição que melhor explicam a distribuição de probabilidade conjunta dos dados observados (X).
- Como você escolhe a função de distribuição de probabilidade?,
- Como você escolhe os parâmetros para a função de distribuição de probabilidade?
este problema é feito mais desafiador como amostra (X) retirada da população é pequena e tem ruído, o que significa que qualquer avaliação de uma função de densidade de probabilidade estimada e seus parâmetros terão algum erro.
Existem muitas técnicas para resolver este problema, embora duas abordagens comuns sejam:
- máximo a Posteriori (mapa), um método Bayesiano.estimativa máxima da probabilidade (MLE), método frequente.,
a principal diferença é que MLE assume que todas as soluções são igualmente prováveis de antemão, enquanto que MAP permite informações prévias sobre a forma da solução a ser aproveitada.
neste post, vamos dar uma olhada mais de perto no método MLE e sua relação com a aprendizagem de máquina aplicada.
quer aprender a probabilidade de aprendizagem por máquina
faça agora o meu curso gratuito de 7 dias de acidente por e-mail (com código de exemplo).
Clique para se inscrever e também obter uma versão ebook PDF livre do curso.,
baixe o seu Mini-curso gratuito
estimativa máxima da probabilidade
uma solução para a estimativa da densidade de probabilidade é referida como estimativa máxima da probabilidade, ou MLE para abreviar.
A estimativa máxima de probabilidade envolve tratar o problema como um problema de otimização ou busca, onde procuramos um conjunto de parâmetros que resulta no melhor ajuste para a probabilidade conjunta da amostra de dados (X).,
em primeiro lugar, envolve a definição de um parâmetro chamado theta que define tanto a escolha da função densidade de probabilidade e os parâmetros dessa distribuição. Pode ser um vetor de valores numéricos cujos valores mudam suavemente e mapeiam para diferentes distribuições de probabilidade e seus parâmetros.,
Na Estimativa de Máxima Verossimilhança, queremos maximizar a probabilidade de observar os dados do conjunto de distribuição de probabilidade a probabilidade de distribuição e seus parâmetros, declarou formalmente como:
- P(X | theta)
Esta probabilidade condicional muitas vezes, usando o ponto e vírgula (;) notação em vez da barra de notação (|) porque theta não é uma variável aleatória, mas em vez de um parâmetro desconhecido., Por exemplo:
- P(X ; theta)
ou
- P(x1, x2, x3, …, xn ; theta)
Este resultante probabilidade condicional é referido como a probabilidade de se observar os dados fornecidos os parâmetros de modelo e por escrito, utilizando a notação L() para denotar a probabilidade de função. Por exemplo:
- L (X; theta)
o objectivo da estimativa da probabilidade máxima é encontrar o conjunto de parâmetros (theta) que maximizam a função da probabilidade, por exemplo, resultando no maior valor da probabilidade.,
- maximize L (X; theta)
Podemos descompactar a probabilidade condicional calculada pela função probabilidade.
dado que a amostra é composta de N exemplos, podemos enquadrar isto como a probabilidade conjunta das amostras de dados observados x1, x2, x3, …, xn em X dado os parâmetros de distribuição de probabilidade (theta).
- L(x1, x2, x3, …, xn ; theta)
O conjunto de distribuição de probabilidade pode ser reescrita como a multiplicação da probabilidade condicional para observar cada exemplo dado os parâmetros de distribuição.,
- Produto i a n P (xi; theta)
multiplicando muitas probabilidades pequenas juntas podem ser numericamente instáveis na prática, portanto, é comum reafirmar este problema como a soma das probabilidades log-condicionais de observar cada exemplo dado os parâmetros do modelo.
- soma I A n log(p (xi; theta))
Onde log com base-e chamado logaritmo natural é comumente usado.
Este produto sobre muitas probabilidades pode ser inconveniente, é propenso a um sub-fluxo numérico., Para obter um problema de otimização mais conveniente, mas equivalente, observamos que tomar o logaritmo da probabilidade não altera o seu máximo arg, mas transforma convenientemente um produto em uma soma
— página 132, Deep Learning, 2016.
dada a utilização frequente de log na função de probabilidade, é comumente referido como uma função de log-probabilidade.
é comum em problemas de otimização preferir minimizar a função de custo, em vez de maximizá-la., Por conseguinte, o negativo da função de probabilidade logarítmica é utilizado, geralmente referido como uma função de probabilidade Log negativa (NLL).
- minimize-sum i to n log (p (xi; theta))
no software, muitas vezes dizemos ambos como minimizando uma função de custo. A máxima probabilidade torna-se assim minimização da log— likely negativa (NLL) …
– Page 133, Deep Learning, 2016.este problema da estimativa da densidade está directamente relacionado com a aprendizagem aplicada pela máquina.,
Podemos enquadrar o problema de encaixar um modelo de aprendizagem de máquina como o problema da estimativa da densidade de probabilidade. Especificamente, a escolha de Parâmetros de modelo e modelo é referida como uma hipótese de modelagem h, E o problema envolve encontrar h que melhor explica os dados X.
- P(X ; h)
Podemos, portanto, encontrar a hipótese de modelagem que maximiza a função de probabilidade.,
- maximizar L(X ; h)
Ou, mais completamente:
- maximizar a soma i n log(P(xi ; h))
Isso fornece a base para estimar a densidade de probabilidade de um conjunto de dados, normalmente usado sem supervisão de algoritmos de aprendizado; por exemplo:
- algoritmos de agrupamento.
Usando a probabilidade de junção de log esperada como uma quantidade chave para aprender em um modelo de probabilidade com variáveis ocultas é mais conhecido no contexto da célebre “maximização de expectativa” ou algoritmo EM.,
— Page 365, Data Mining: Practical Machine Learning Tools and Techniques, 4th edition, 2016.
O quadro de estimativa da probabilidade máxima é também uma ferramenta útil para a aprendizagem supervisionada da máquina.
isto aplica-se aos dados em que temos variáveis de entrada e saída, em que o variado de saída pode ser um valor numérico ou uma etiqueta de classe no caso de regressão e modelagem preditiva de classificação retrospectivamente.
Podemos afirmar isto como a probabilidade condicional da saída (y) dada a entrada (X) dada a hipótese de modelagem (h).,
- maximizar L(y|X, h)
Ou, mais completamente:
- maximizar a soma i n log(P(yi|xi ; h)
O estimador de máxima verossimilhança pode ser facilmente generalizada para o caso onde o nosso objetivo é estimar a probabilidade condicional P(y | x ; theta), a fim de prever y dado x. Este é, na verdade, a situação mais comum, porque ela forma a base para a maioria de aprendizado supervisionado.
— Page 133, Deep Learning, 2016.,isto significa que o mesmo quadro máximo de estimativa da probabilidade que é geralmente utilizado para a estimativa da densidade pode ser utilizado para encontrar um modelo e parâmetros de Aprendizagem Supervisionados.
Isto fornece a base para técnicas de modelagem linear fundamental, tais como:
- regressão Linear, para a previsão de um valor numérico.
- regressão logística, para classificação binária.
No caso de regressão linear, o modelo é restringido a uma linha e envolve encontrar um conjunto de coeficientes para a linha que melhor se adapta aos dados observados., Felizmente, este problema pode ser resolvido analiticamente (por exemplo, usando diretamente álgebra linear).
no caso de regressão logística, o modelo define uma linha e envolve encontrar um conjunto de coeficientes para a linha que melhor separa as classes. Isto não pode ser resolvido analiticamente e é muitas vezes resolvido através da pesquisa do espaço de possíveis valores de coeficiente usando um algoritmo de otimização eficiente, como o algoritmo BFGS ou variantes.
ambos os métodos também podem ser resolvidos menos eficientemente usando um algoritmo de otimização mais geral, como descida de gradiente estocástico.,
Na verdade, a maioria dos modelos de aprendizado de máquina pode ser enquadrada sob o quadro de estimativa de máxima probabilidade, proporcionando uma maneira útil e consistente de abordar modelagem preditiva como um problema de otimização.um benefício importante do estimador de maximização da probabilidade na aprendizagem de máquinas é que à medida que o tamanho do conjunto de dados aumenta, a qualidade do estimador continua a melhorar.
Leitura Adicional
Esta secção fornece mais recursos sobre o tópico se você está procurando ir mais fundo.
livros
- Capítulo 5 Noções básicas de aprendizagem mecânica, aprendizagem profunda, 2016.,Capítulo 2 distribuição de probabilidade, reconhecimento de padrões e aprendizagem de máquinas, 2006.Chapter 8 Model inferência and Averaging, the Elements of Statistical Learning, 2016.Chapter 9 Probabilistic methods, Data Mining: Practical Machine Learning Tools and Techniques, 4th edition, 2016.
- Chapter 22 Maximum likely and Clustering, Information Theory, inferência and Learning Algorithms, 2003.Chapter 8 Learning distributions, Bayesian Reasoning and Machine Learning, 2011.
Articles
- Maximum probability estimation, Wikipedia.,máxima probabilidade, Wolfram MathWorld.
- função de probabilidade, Wikipédia.
- alguns problemas para entender a definição de uma função em um método de probabilidade máxima, cruzada.
resumo
neste post, descobriu uma introdução suave à estimativa máxima da probabilidade.
especificamente, você aprendeu:
- A estimativa máxima da probabilidade é uma estrutura probabilística para resolver o problema da estimativa da densidade.,
- envolve a maximização de uma função de probabilidade, a fim de encontrar a distribuição de probabilidade e os parâmetros que melhor explicam os dados observados.
- Ele fornece um framework para modelagem preditiva na aprendizagem de máquinas onde encontrar Parâmetros de modelo pode ser enquadrado como um problema de otimização.tem alguma pergunta?Faça suas perguntas nos comentários abaixo e farei o meu melhor para responder.
Get a Handle on Probability for Machine Learning!,
desenvolva a sua compreensão da probabilidade
…with just a few lines of python code
Discover how in my new eBook:
Probability for Machine LearningIt provides self-study tutorials and end-to-end projects on:
Bayes Theorem, Bayesian Optimization, Distributions, Maximum Probability, Cross-Entropy, Calibrating Models
and much more…finalmente aproveitar a incerteza em seus projetos
saltar os acadêmicos. Apenas Resultados.Ver o que está dentro de
Tweet Share