Tweet share Podělte

Naposledy Aktualizován dne 5. listopadu 2019

Hustota odhad je problém odhadu pravděpodobnostního rozdělení vzorku pozorování z problémové domény.

existuje mnoho technik pro řešení odhadu hustoty, ačkoli společný rámec používaný v celé oblasti strojového učení je odhad maximální pravděpodobnosti., Maximální odhad pravděpodobnosti zahrnuje definování pravděpodobnosti funkce pro výpočet podmíněné pravděpodobnosti pozorování vzorku dat dané rozdělení pravděpodobnosti a distribuční parametry. Tento přístup lze použít k vyhledávání prostoru možných distribucí a parametrů.,

Tento flexibilní pravděpodobnostní rámec rovněž poskytuje základ pro mnoho algoritmů strojového učení, včetně důležitých metod, např. lineární regrese a logistické regrese pro predikci číselné hodnoty a třídy popisky, ale také obecněji pro hluboké učení umělé neuronové sítě.

v tomto příspěvku objevíte jemný úvod do odhadu maximální pravděpodobnosti.

Po přečtení tohoto příspěvku, budete vědět:

  • Maximální Odhad Pravděpodobnosti je pravděpodobnostní rámec pro řešení problému hustoty odhadu.,
  • zahrnuje maximalizaci funkce pravděpodobnosti za účelem nalezení distribuce pravděpodobnosti a parametrů, které nejlépe vysvětlují pozorovaná data.
  • poskytuje rámec pro prediktivní modelování ve strojovém učení, kde lze najít parametry modelu jako optimalizační problém.

Kick-start svůj projekt s mým novým knihy pravděpodobnosti pro strojové učení, včetně krok za krokem tutoriály a soubory zdrojového kódu Python pro všechny příklady.

začněme.,

Jemný Úvod do Maximální věrohodnosti pro Odhad Strojového Učení
Foto Guilhem Vellut, některá práva jsou vyhrazena.

Přehled

Tento výukový program je rozdělen do tří částí; jsou to:

  1. Problém Hustoty Pravděpodobnosti Odhadu
  2. Maximální Odhad Pravděpodobnosti
  3. Vztah k Učení Stroje

Problém Hustoty Pravděpodobnosti Odhadu

společné modelování problému zahrnuje jak odhad sdružené rozdělení pravděpodobnosti pro dataset.,

například, vzhledem k tomu, vzorek pozorování (X) z domény (x1, x2, x3, …, xn), kde každé pozorování je vypracován nezávisle na doméně s stejné rozdělení pravděpodobnosti (tzv. nezávislé a identicky distribuované, jsem.jsem.d., nebo se mu blíží).

odhad hustoty zahrnuje výběr funkce rozdělení pravděpodobnosti a parametrů této distribuce, které nejlépe vysvětlují společné rozdělení pravděpodobnosti pozorovaných dat (X).

  • jak si vybrat funkci rozdělení pravděpodobnosti?,
  • jak si vybrat parametry pro funkci rozdělení pravděpodobnosti?

Tento problém je více náročná jako vzorek (X) čerpány z populace je malý a má šum, což znamená, že jakékoli hodnocení odhadem hustoty pravděpodobnosti a jeho parametry, bude mít nějaké chyby.

existuje mnoho technik pro řešení tohoto problému, ačkoli dva běžné přístupy jsou:

  • Maximum a Posteriori (mapa), Bayesovská metoda.
  • odhad maximální pravděpodobnosti (MLE), metoda frequentist.,

hlavní rozdíl spočívá v tom, že MLE předpokládá, že všechna řešení jsou stejně pravděpodobná předem, zatímco MAP umožňuje využít předchozí informace o formě řešení.

v tomto příspěvku se blíže podíváme na metodu MLE a její vztah k aplikovanému strojovému učení.

Chcete se Dozvědět Pravděpodobnost Strojového Učení

Vezměte si své zdarma 7-denní e-mailový rychlokurz teď (s ukázkový kód).

kliknutím se zaregistrujete a získáte také bezplatnou verzi PDF Ebook kurzu.,

Stáhněte si ZDARMA Mini-Kurz,

Maximální Odhad Pravděpodobnosti

Jedním z řešení hustoty pravděpodobnosti odhadu je označován jako Maximální Odhad Pravděpodobnosti, nebo MLE pro krátké.

odhad maximální pravděpodobnosti zahrnuje řešení problému jako problému optimalizace nebo vyhledávání, kde hledáme soubor parametrů, které nejlépe vyhovují společné pravděpodobnosti vzorku dat (X).,

nejprve zahrnuje definování parametru nazvaného theta, který definuje jak volbu funkce hustoty pravděpodobnosti, tak parametry této distribuce. To může být vektor číselných hodnot, jejichž hodnoty se mění plynule a mapy na různých rozdělení pravděpodobnosti a jejich parametrů.,

V Maximální Odhad Pravděpodobnosti, chceme maximalizovat pravděpodobnost pozorování dat ze společného rozdělení pravděpodobnosti vzhledem k určité rozdělení pravděpodobnosti a jeho parametry, je uvedeno, formálně jako:

  • P(X | theta)

Tato podmíněná pravděpodobnost je často uvedeno, pomocí středník (;) notace namísto řádku notace ( | ), protože theta není náhodné proměnné, ale místo toho neznámý parametr., Například:

  • P(X ; theta)

nebo

  • P(x1, x2, x3, …, xn ; theta)

Tento výsledná podmíněná pravděpodobnost se označuje jako pravděpodobnost pozorování dat dané parametry modelu a napsané pomocí notace L() značí pravděpodobnost funkci. Například:

  • L(X ; theta)

cílem odhadu maximální pravděpodobnosti je najít soubor parametrů (theta), které maximalizují funkci pravděpodobnosti, např.,

  • maximalizujte L (X; theta)

můžeme rozbalit podmíněnou pravděpodobnost vypočtenou funkcí pravděpodobnosti.

Vzhledem k tomu, že vzorek je tvořen n příklady, můžeme zarámovat jako společný pravděpodobnost pozorovaných dat vzorky x1, x2, x3, …, xn v X vzhledem k pravděpodobnostní rozdělení parametrů (theta).

  • L(x1, x2, x3, …, xn ; theta)

společné rozdělení pravděpodobnosti lze popsat jako násobení podmíněná pravděpodobnost pro pozorování každý příklad vzhledem k rozdělení parametrů.,

  • produkt jsem k n P(xi ; theta)

Vynásobením mnoho malých pravděpodobnosti dohromady může být numericky nestabilní v praxi, proto je běžné, že zopakovat tento problém jako součet log podmíněné pravděpodobnosti pozorování každý příklad uvedeny parametry modelu.

  • součet I až n log (P (xi ; theta))

, kde se běžně používá protokol se základnou-e nazývaný přirozený logaritmus.

Tento výrobek po mnoho pravděpodobnosti může být nepohodlné je náchylný k numerické podtečení., Chcete-li získat více pohodlné, ale ekvivalentní optimalizační problém, pozorujeme, že logaritmus pravděpodobnosti nemění jeho arg max ale pohodlně transformovat produktu do součtu

— Stránka 132, Hluboké Učení, 2016.

vzhledem k častému používání protokolu ve funkci pravděpodobnosti se běžně označuje jako funkce pravděpodobnosti protokolu.

v optimalizačních problémech je běžné raději minimalizovat nákladovou funkci, než ji maximalizovat., Proto se používá negativní funkce log-pravděpodobnosti, označovaná obecně jako funkce negativního Log-pravděpodobnosti (NLL).

  • minimalizovat součet i n log(P(xi ; theta))

V software, často fráze jako minimalizaci nákladové funkce. Maximální pravděpodobnost se tak stává minimalizací negativní log-pravděpodobnosti (NLL) …

– Strana 133, Deep Learning, 2016.

vztah k strojovému učení

tento problém odhadu hustoty přímo souvisí s aplikovaným strojovým učením.,

jako problém odhadu hustoty pravděpodobnosti můžeme označit problém montáže modelu strojového učení. Konkrétně, výběr modelu a parametrů modelu se nazývá modelování hypotéza h, a problém spočívá v nalezení h, který nejlépe vysvětluje data X.

  • P(X ; h)

můžeme tedy najít modelování hypotéza, která maximalizuje pravděpodobnost funkci.,

  • maximalizovat L(X ; h)

Nebo, více plně:

  • maximalizovat součet i n log(P(xi ; h))

To poskytuje základ pro odhad hustoty pravděpodobnosti z údajů, které se obvykle používají v bez dozoru algoritmů strojového učení; například:

  • Clustering algoritmy.

Použitím očekávané log společné pravděpodobnost jako klíčový množství pro učení v pravděpodobnosti modelu s skryté proměnné je lépe známý v souvislosti se slaví „expectation maximization“ nebo EM algoritmus.,

– Strana 365, dolování dat: praktické nástroje a techniky strojového učení, 4. vydání, 2016.

rámec pro odhad maximální pravděpodobnosti je také užitečným nástrojem pro strojové učení pod dohledem.

Toto se vztahuje na data, kde máme vstupní a výstupní proměnné, kde výstupní veličina může být číselná hodnota nebo třída etiketa v případě regrese a klasifikace prediktivní modelování zpětně.

můžeme to uvést jako podmíněnou pravděpodobnost výstupu (y) vzhledem ke vstupu (X) vzhledem k hypotéze modelování (h).,

  • maximalizovat L(y|X ; h)

Nebo, více plně:

  • maximalizovat součet i n log(P(yi|xi ; h))

maximální pravděpodobnost, že odhad může být snadno zobecnit na případ, kdy naším cílem je odhad podmíněné pravděpodobnosti P(y | x ; theta) za účelem odhadu y vzhledem k x. To je vlastně nejčastější situace, protože to tvoří základ pro většinu učení s učitelem.

– Page 133, Deep Learning, 2016.,

to znamená, že stejný rámec odhadu maximální pravděpodobnosti, který se obecně používá pro odhad hustoty, lze použít k nalezení modelu a parametrů učení pod dohledem.

To poskytuje základ pro základní lineární modelovací techniky, jako jsou:

  • lineární regrese, pro předpovídání číselné hodnoty.
  • logistická regrese, pro binární klasifikaci.

V případě lineární regrese, model je omezen na linku a zahrnuje nalezení sada koeficientů pro řádek, který nejlépe odpovídá pozorovaným datům., Naštěstí lze tento problém vyřešit analyticky (např. přímo pomocí lineární algebry).

v případě logistické regrese model definuje čáru a zahrnuje nalezení sady koeficientů pro řádek, který nejlépe odděluje třídy. To nelze vyřešit analyticky a je často řešeno hledáním prostoru možných hodnot koeficientů pomocí efektivního optimalizačního algoritmu, jako je algoritmus bfgs nebo varianty.

obě metody lze také vyřešit méně efektivně pomocí obecnějšího optimalizačního algoritmu, jako je sestup stochastického gradientu.,

Ve skutečnosti, většina strojového učení modely mohou být formulovány na základě maximální pravděpodobnosti odhadu rámec, poskytuje užitečné a konzistentní způsob, jak přistupovat k prediktivní modelování jako optimalizační problém.

důležitým přínosem odhadu pravděpodobnosti maximalizace v strojovém učení je to, že jak se velikost datové sady zvyšuje, kvalita odhadu se stále zlepšuje.

další čtení

tato část poskytuje více zdrojů na toto téma, pokud chcete jít hlouběji.

knihy

  • Kapitola 5 základy strojového učení, hluboké učení, 2016.,
  • Kapitola 2 rozdělení pravděpodobnosti, rozpoznávání vzorů a strojové učení, 2006.
  • Kapitola 8 Model Inference a průměrování, prvky statistického učení, 2016.
  • Kapitola 9 pravděpodobnostní metody, dolování dat: praktické nástroje a techniky strojového učení, 4. vydání, 2016.
  • Kapitola 22 Maximální Pravděpodobnost a shlukování, teorie informací, inferenční a učební algoritmy, 2003.
  • Kapitola 8 distribuce učení, Bayesovské uvažování a strojové učení, 2011.

články

  • odhad maximální pravděpodobnosti, Wikipedia.,
  • maximální pravděpodobnost, Wolfram MathWorld.
  • funkce pravděpodobnosti, Wikipedia.
  • některé problémy pochopení definice funkce v metodě maximální pravděpodobnosti, zkřížené.

shrnutí

v tomto příspěvku jste objevili jemný úvod do odhadu maximální pravděpodobnosti.

konkrétně jste se dozvěděli:

  • odhad maximální pravděpodobnosti je pravděpodobnostní rámec pro řešení problému odhadu hustoty.,
  • zahrnuje maximalizaci funkce pravděpodobnosti za účelem nalezení distribuce pravděpodobnosti a parametrů, které nejlépe vysvětlují pozorovaná data.
  • poskytuje rámec pro prediktivní modelování ve strojovém učení, kde lze najít parametry modelu jako optimalizační problém.

máte nějaké dotazy?
Ptejte se v komentářích níže a já se budu snažit odpovědět.

získejte rukojeť na Pravděpodobnost strojového učení!,

rozvíjejte své chápání pravděpodobnosti

…s jen pár řádek python kódu

Zjistit, jak můj nový Ebook:
Pravděpodobnost Strojového Učení

To poskytuje self-studium cvičení a end-to-end projektů na:
Bayesova Věta, Bayesovská Optimalizace, Pravděpodobnosti, Maximální Pravděpodobnost, Cross-Entropy, Kalibrace Modelů
a mnohem více…

konečně využijte nejistotu ve svých projektech

přeskočte akademiky. Jen Výsledky.Podívejte se, co je uvnitř

Tweet Share

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna. Vyžadované informace jsou označeny *