Delikatne Wprowadzenie do szacowania maksymalnego prawdopodobieństwa dla uczenia maszynowego

Tweet Udostępnij Udostępnij

Ostatnia aktualizacja 5 listopada 2019 r.

szacowanie gęstości jest problemem szacowania rozkładu prawdopodobieństwa dla próbki obserwacji z dziedziny problemowej.

istnieje wiele technik rozwiązywania estymacji gęstości, chociaż powszechnym frameworkiem stosowanym w całej dziedzinie uczenia maszynowego jest estymacja maksymalnego prawdopodobieństwa., Maksymalne oszacowanie prawdopodobieństwa polega na zdefiniowaniu funkcji prawdopodobieństwa do obliczania prawdopodobieństwa warunkowego obserwacji próbki danych biorąc pod uwagę rozkład prawdopodobieństwa i parametry rozkładu. Takie podejście może być wykorzystane do przeszukiwania przestrzeni możliwych rozkładów i parametrów.,

ta elastyczna struktura probabilistyczna stanowi również podstawę dla wielu algorytmów uczenia maszynowego, w tym ważnych metod, takich jak regresja liniowa i regresja logistyczna do przewidywania wartości liczbowych i etykiet klas, ale także bardziej ogólnie dla sztucznych sieci neuronowych uczenia głębokiego.

w tym poście odkryjesz delikatne wprowadzenie do szacowania maksymalnego prawdopodobieństwa.

Po przeczytaniu tego postu dowiesz się:

Szacowanie maksymalnego prawdopodobieństwa to probabilistyczne ramy rozwiązywania problemu estymacji gęstości.,
polega na maksymalizacji funkcji prawdopodobieństwa w celu znalezienia rozkładu prawdopodobieństwa i parametrów, które najlepiej wyjaśniają obserwowane dane.
zapewnia ramy do modelowania predykcyjnego w uczeniu maszynowym, gdzie znalezienie parametrów modelu może być ramką jako problem optymalizacji.

Rozpocznij swój projekt z moją nową książką prawdopodobieństwo uczenia maszynowego, zawierającą samouczki krok po kroku i pliki kodu źródłowego Pythona dla wszystkich przykładów.

zaczynajmy.,

a Gentle Introduction to Maximum likely estimation for Machine Learning
Photo by Guilhem Vellut, some rights reserved.

przegląd

Ten samouczek jest podzielony na trzy części:

Problem szacowania gęstości prawdopodobieństwa
Szacowanie maksymalnego prawdopodobieństwa
związek z uczeniem maszynowym

Problem szacowania gęstości prawdopodobieństwa

wspólny problem modelowania polega na oszacowaniu wspólnego rozkładu prawdopodobieństwa dla zbioru danych.,

na przykład, biorąc pod uwagę próbkę obserwacji (X) z dziedziny (x1, x2, x3, …, xn), gdzie każda obserwacja jest rysowana niezależnie od dziedziny o tym samym rozkładzie prawdopodobieństwa(tak zwane niezależne i identycznie rozłożone, i. i. d., lub blisko niej).

estymacja gęstości polega na wybraniu funkcji rozkładu prawdopodobieństwa i parametrów tego rozkładu, które najlepiej wyjaśniają wspólny rozkład prawdopodobieństwa obserwowanych danych (X).

Jak wybrać funkcję rozkładu prawdopodobieństwa?,
Jak dobrać parametry dla funkcji rozkładu prawdopodobieństwa?

problem ten jest trudniejszy, ponieważ próbka (X) pobrana z populacji jest mała i ma hałas, co oznacza, że każda ocena szacowanej funkcji gęstości prawdopodobieństwa i jej parametrów będzie miała pewien błąd.

istnieje wiele technik rozwiązywania tego problemu, chociaż dwa wspólne podejścia to:

Maximum a Posteriori (MAP), metoda bayesowska.
Szacowanie maksymalnego prawdopodobieństwa (mle), metoda frequentist.,

główną różnicą jest to, że MLE zakłada, że wszystkie rozwiązania są jednakowo prawdopodobne wcześniej, natomiast MAP pozwala na wcześniejsze informacje o formie rozwiązania.

w tym poście przyjrzymy się bliżej metodzie MLE i jej związkowi z applied machine learning.

chcesz nauczyć się prawdopodobieństwa uczenia maszynowego

weź mój darmowy 7-dniowy kurs e-mail crash course teraz (z przykładowym kodem).

Kliknij, aby się zapisać, a także otrzymać darmową wersję kursu w formacie PDF.,

Pobierz swój darmowy Mini-kurs

Szacowanie maksymalnego prawdopodobieństwa

jedno rozwiązanie do szacowania gęstości prawdopodobieństwa jest określane jako Szacowanie maksymalnego prawdopodobieństwa lub w skrócie MLE.

maksymalne oszacowanie prawdopodobieństwa polega na traktowaniu problemu jako problemu optymalizacji lub wyszukiwania, gdzie szukamy zestawu parametrów, które dają najlepsze dopasowanie do wspólnego prawdopodobieństwa próbki danych (X).,

Po pierwsze, polega na zdefiniowaniu parametru zwanego theta, który określa zarówno wybór funkcji gęstości prawdopodobieństwa, jak i parametry tego rozkładu. Może to być wektor wartości liczbowych, których wartości zmieniają się płynnie i odwzorowują różne rozkłady prawdopodobieństwa i ich parametry.,

w szacowaniu maksymalnego prawdopodobieństwa chcemy zmaksymalizować prawdopodobieństwo obserwacji danych ze wspólnego rozkładu prawdopodobieństwa, biorąc pod uwagę określony rozkład prawdopodobieństwa i jego parametry, formalnie określone jako:

P(x/theta)

to prawdopodobieństwo warunkowe jest często określane za pomocą średnika (;) zamiast notacji słupkowej ( / ), ponieważ theta nie jest zmienną losową, ale nieznanym parametrem., Na przykład:

P(x ; theta)

lub

P(x1, x2, x3, …, xn ; theta)

To wynikające prawdopodobieństwo warunkowe jest określane jako prawdopodobieństwo obserwacji danych podanych w parametrach modelu i zapisane przy użyciu notacji L() w celu oznaczenia funkcji prawdopodobieństwa. Na przykład:

L(x ; theta)

celem oszacowania maksymalnego prawdopodobieństwa jest znalezienie zestawu parametrów (theta), które maksymalizują funkcję prawdopodobieństwa, np. dają największą wartość prawdopodobieństwa.,

Maksymalizuj L(x ; theta)

możemy rozpakować prawdopodobieństwo warunkowe obliczone za pomocą funkcji prawdopodobieństwa.

biorąc pod uwagę, że próbka składa się z N przykładów, możemy Ramki to jako wspólne prawdopodobieństwo obserwowanych próbek danych x1, x2, x3,…, xn W x biorąc pod uwagę parametry rozkładu prawdopodobieństwa (theta).

L(x1, x2, x3, …, xn ; theta)

wspólny rozkład prawdopodobieństwa można przekształcić jako mnożenie prawdopodobieństwa warunkowego dla każdego przykładu, biorąc pod uwagę parametry rozkładu.,

iloczyn i do n p(xi ; theta)

mnożenie wielu małych prawdopodobieństw razem może być numerycznie niestabilne w praktyce, dlatego często powtarza się ten problem jako sumę log prawdopodobieństw warunkowych obserwacji każdego przykładu, biorąc pod uwagę parametry modelu.

suma i do n log(P(xi ; theta))

gdzie log z bazą-e zwany logarytmem naturalnym jest powszechnie używany.

Ten produkt z powodu wielu prawdopodobieństw może być niewygodny, jest podatny na zanik liczbowy., Aby uzyskać wygodniejszy, ale równoważny problem optymalizacji, obserwujemy, że przyjęcie logarytmu prawdopodobieństwa nie zmienia jego ARG max, ale wygodnie przekształca produkt w sumę

— strona 132, Deep Learning, 2016.

ze względu na częste używanie logu w funkcji prawdopodobieństwa, jest ona powszechnie określana jako funkcja log-prawdopodobieństwo.

w problemach optymalizacyjnych często woli się minimalizować funkcję kosztów, a nie ją maksymalizować., W związku z tym stosuje się ujemną funkcję log-likability, określaną ogólnie jako ujemna funkcja Log-likability (NLL).

Minimalizuj sumę i do n log(P(xi ; theta))

w oprogramowaniu często określamy oba jako minimalizujące funkcję kosztów. Maksymalne prawdopodobieństwo staje się zatem minimalizacją prawdopodobieństwa ujemnego (NLL) …

-strona 133, Deep Learning, 2016.

relacja do uczenia maszynowego

problem estymacji gęstości jest bezpośrednio związany z zastosowanym uczeniem maszynowym.,

problem dopasowania modelu uczenia maszynowego możemy ująć jako problem estymacji gęstości prawdopodobieństwa. W szczególności wybór modelu i parametrów modelu jest określany jako hipoteza modelowania h, a problem polega na znalezieniu h, które najlepiej wyjaśnia dane X.

P(x ; h)

możemy zatem znaleźć hipotezę modelowania, która maksymalizuje funkcję prawdopodobieństwa.,

zmaksymalizuj L(x ; h)

lub pełniej:

zmaksymalizuj sumę i do n log(P(xi ; h))

zapewnia to podstawę do oszacowania gęstości prawdopodobieństwa zbioru danych, zwykle używanego w bez nadzoru algorytmach uczenia maszynowego; na przykład:

algorytmy klastrowania.

wykorzystanie oczekiwanego prawdopodobieństwa log joint jako kluczowej ilości do nauki w modelu prawdopodobieństwa z ukrytymi zmiennymi jest lepiej znane w kontekście słynnego „maksymalizacji oczekiwań” lub algorytmu EM.,

— strona 365, Data Mining: Practical Machine Learning Tools and Techniques, 4th edition, 2016.

ramy szacowania maksymalnego prawdopodobieństwa są również użytecznym narzędziem do nadzorowanego uczenia maszynowego.

dotyczy to Danych, w których mamy zmienne wejściowe i wyjściowe, gdzie zmienna wyjściowa może być wartością liczbową lub etykietą klasy w przypadku modelowania predykcyjnego regresji i klasyfikacji retrospektywnie.

możemy to określić jako warunkowe prawdopodobieństwo wyjścia (y), biorąc pod uwagę wejście (X), biorąc pod uwagę hipotezę modelowania (h).,

Maksymalizuj L(y|X ; h)

lub pełniej:

Maksymalizuj sumę i do n log(P(yi|xi ; h))

Estymator maksymalnego prawdopodobieństwa można łatwo uogólnić do przypadku, w którym naszym celem jest oszacowanie prawdopodobieństwa warunkowego P(y | x ; theta) w celu przewidzenia y podanego X. jest to w rzeczywistości najczęstsza sytuacja, ponieważ stanowi podstawę większości nadzorowanych uczenia się.

— p > – strona 133, Deep Learning, 2016.,

oznacza to, że te same ramy szacowania maksymalnego prawdopodobieństwa, które są zwykle używane do estymacji gęstości, można wykorzystać do znalezienia nadzorowanego modelu uczenia się i parametrów.

stanowi to podstawę podstawowych technik modelowania liniowego, takich jak:

regresja liniowa, do przewidywania wartości liczbowej.
regresja logistyczna, dla klasyfikacji binarnej.

w przypadku regresji liniowej model jest ograniczony do linii i polega na znalezieniu zestawu współczynników dla linii, która najlepiej pasuje do obserwowanych danych., Na szczęście problem ten można rozwiązać analitycznie (np. bezpośrednio za pomocą algebry liniowej).

w przypadku regresji logistycznej model definiuje linię I polega na znalezieniu zbioru współczynników dla linii, która najlepiej oddziela klasy. Nie można tego rozwiązać analitycznie i często rozwiązuje się to poprzez przeszukiwanie przestrzeni możliwych wartości współczynnika za pomocą wydajnego algorytmu optymalizacji, takiego jak algorytm BFGS lub warianty.

obie metody można również rozwiązać mniej efektywnie za pomocą bardziej ogólnego algorytmu optymalizacji, takiego jak opadanie gradientu stochastycznego.,

w rzeczywistości większość modeli uczenia maszynowego można oprawić w ramy szacowania maksymalnego prawdopodobieństwa, zapewniając użyteczny i spójny sposób podejścia do modelowania predykcyjnego jako problemu optymalizacji.

ważną zaletą estymatora maksymalizacji prawdopodobieństwa w uczeniu maszynowym jest to, że wraz ze wzrostem rozmiaru zbioru danych, jakość estymatora stale się poprawia.

Czytaj dalej

Ta sekcja zawiera więcej zasobów na ten temat, Jeśli Chcesz wejść głębiej.

Książki

Rozdział 5 podstawy uczenia maszynowego, Deep Learning, 2016.,
Chapter 2 Probability Distributions, Pattern Recognition and Machine Learning, 2006.
Rozdział 8 wnioskowanie modelowe i uśrednianie, Elementy nauczania Statystycznego, 2016.
Rozdział 9 Probabilistic methods, Data Mining: Practical Machine Learning Tools and Techniques, 4th edition, 2016.
Chapter 22 Maximum likability and Clustering, Information Theory, Inference and Learning Algorithms, 2003.
Rozdział 8 rozkładów uczenia się, rozumowanie bayesowskie i uczenie maszynowe, 2011.

Artykuły

szacowanie maksymalnego prawdopodobieństwa, Wikipedia.,
maksymalne prawdopodobieństwo, Wolfram MathWorld.
funkcja prawdopodobieństwa, Wikipedia.
niektóre problemy ze zrozumieniem definicji funkcji w metodzie maksymalnego prawdopodobieństwa, krzyżowej.

podsumowanie

w tym poście odkryłeś delikatne wprowadzenie do szacowania maksymalnego prawdopodobieństwa.

w szczególności nauczyłeś się:

Szacowanie maksymalnego prawdopodobieństwa to probabilistyczne ramy rozwiązywania problemu estymacji gęstości.,
polega na maksymalizacji funkcji prawdopodobieństwa w celu znalezienia rozkładu prawdopodobieństwa i parametrów, które najlepiej wyjaśniają obserwowane dane.
zapewnia ramy do modelowania predykcyjnego w uczeniu maszynowym, gdzie znalezienie parametrów modelu może być ramką jako problem optymalizacji.

masz jakieś pytania?
Zadaj swoje pytania w komentarzach poniżej, a ja Dołożę wszelkich starań, aby odpowiedzieć.

zapoznaj się z prawdopodobieństwem uczenia maszynowego!,

Rozwiń swoje zrozumienie prawdopodobieństwa

…dzięki kilku linijkom kodu Pythona

Odkryj, jak w moim nowym ebooku:
Prawdopodobieństwo dla uczenia maszynowego

zapewnia samouczki i kompleksowe projekty dotyczące:
twierdzenia Bayesa, optymalizacji bayesowskiej, dystrybucji, maksymalnego prawdopodobieństwa, entropii krzyżowej, kalibracji modeli
i wielu innych…

wreszcie Okiełznaj niepewność w swoich projektach

Tylko Wyniki.Zobacz co jest w środku

Tweet Share Share