kolik genů je v genomu?
Reader Mode
již jsme zkoumali velkou rozmanitost velikostí genomu v celém živém světě (viz tabulka v dálniční známce „jak velké jsou genomy?”). Jako první krok při zdokonalování našeho chápání informačního obsahu těchto genomů potřebujeme pocit počtu genů,které mají. Když odkazujeme na geny, budeme myslet na geny kódující bílkoviny, s výjimkou stále se rozšiřující sbírky oblastí kódování RNA v genomech.,
Obrázek 1: Počet genů jako funkce velikosti genomu. Obrázek ukazuje data pro různé bakterie a archaea, se sklonem datové linie potvrzující jednoduché pravidlo týkající se velikosti genomu a počtu genů. (Převzato z M. Lynch, původ genomové architektury.,)
Přes celý strom života, i když velikost genomu se liší až o 8 řádů (od <2 kb Hepatitidy D virus (BNID 105570) >100 Gbp za Mramorovaný plic ryby (BNID 100597) a některé květy Fritillaria (BNID 102726)), rozsah počtu genů se liší o méně než o 5 řádů (z virů, jako MS2 a QB bakteriofágy, které mají pouze 4 geny asi sto tisíc v pšenici). Mnoho bakterií má několik tisíc genů., Tento obsah genu je úměrný velikosti genomu a velikosti proteinu, jak je znázorněno níže. Zajímavé je, že eukaryotické genomy, které jsou často tisíckrát nebo více větší než v prokaryot, obsahují pouze řádově více genů, než je jejich prokaryotické protějšky. Neschopnost úspěšně odhadnout počet genů v eukaryotách na základě znalosti obsahu genů prokaryot byla jedním z neočekávaných zvratů moderní biologie.,
Tabulka 1: srovnání počtu genů v organismu a naivní odhad na základě velikosti genomu děleno konstantní faktor 1000bp/gen, tj. předpověděl počet genů = genom velikost/1000. Jeden zjistí, že toto hrubé pravidlo funguje překvapivě dobře pro mnoho bakterií a archaea, ale nešťastně selhává pro mnohobuněčné organismy.
nejjednodušší odhad počtu genů v genomu se odvíjí za předpokladu, že celý genom kóduje geny zájmu., K dalšímu pokroku s odhadem, musíme si změřit množství aminokyselin v typické bílkovin, které budeme mít zhruba 300, však vědomi skutečnosti, že jako geny, proteiny přijít v široké škále velikostí sebe, jak je odhaleno v dálniční známku na toto téma, „jaké jsou velikosti proteinů?”. Na základě tohoto skromného předpokladu vidíme, že počet bází potřebných k kódu pro náš typický protein je zhruba 1000 (3 párů bází na aminokyselinu)., Proto se v rámci tohoto myšlení odhaduje počet genů obsažených v genomu na velikost genomu / 1000. U bakteriálních genomů tato strategie funguje překvapivě dobře, jak je vidět v tabulce 1 a Obrázek 1. Například, když se aplikuje na E. coli K-12, genom 4,6 x 106 bp, toto pravidlo vede k odhad 4600 geny, které mohou být ve srovnání se současnou nejlepší znalosti tohoto množství, které je 4225. Při procházení tuctu reprezentativních bakterií a archeálních genomů v tabulce je pozorována podobně nápadná prediktivní síla v rozmezí asi 10%., Na druhou stranu, tato strategie selže okázale, když jsme se aplikovat to na eukaryotické genomy, což například v odhadují, že počet genů v lidském genomu by měla být 3,000,000, hrubé přeceňovat. Nespolehlivost tohoto odhadu pomáhá vysvětlit existenci Genesweep sázení bazén, který nedávno-v roce 2000 měli lidé sázení na počet genů v lidském genomu, s lidmi je to různé odhady o více než desetinásobně.,
Obrázek 2: různé komponenty sekvence tvořící lidský genom. Asi 1,5% genomu se skládá z ≈20 000 proteinových kódujících sekvencí, které jsou rozptýleny nekódujícími introny, což tvoří asi 26%. Transponovatelné prvky jsou největší frakcí (40-50%), včetně například dlouhých rozptýlených jaderných prvků (čar) a krátkých rozptýlených jaderných prvků (SINEs). Většina transponovatelných prvků jsou genomické zbytky, které jsou v současné době zaniklé. (BNID 110283, upravený z T. R.Gregory Nat Rev Genet., 9:699-708, 2005 na základě mezinárodního konsorcia pro sekvenování lidského genomu. Počáteční sekvenování a analýza lidského genomu. Příroda 409: 860 2001.)
co vysvětluje toto velkolepé selhání nejvíce naivního odhadu a co nás učí o informacích organizovaných v genomech? Eukaryotické genomy, zejména ty spojené s mnohobuněčných organismů, se vyznačuje řadou zajímavých vlastností, které narušují jednoduché kódování obrazu využívány v naivní odhad., Tyto rozdíly v využití genomu jsou znázorněny obrazně na obrázku 2, který ukazuje procento genomu použitého pro jiné účely než kódování bílkovin. Jak je patrné na Obrázku 1, prokaryot může efektivně kompaktní jejich protein kódujících sekvencí tak, že jsou téměř nepřetržitý a výsledek v méně než 10% jejich genomy jsou přiřazeny non kódování DNA (12% v E. coli, BNID 105750) vzhledem k tomu, že u lidí, více než 98% (BNID 103748) je non bílkovin kódování.,
objev těchto dalších použití genomu představuje některé z nejdůležitějších poznatků o DNA a biologii obecněji za posledních 60 let. Jedním z těchto alternativních používá pro genomické nemovitostí je regulační genom, a to, jakým způsobem velké kusy genomu, jsou použity jako cíle pro vazbu regulačních proteinů, které vedou ke kombinatorické ovládání, tak typické pro genomy v mnohobuněčných organismů., Další z hlavních rysů eukaryotických genomů je organizace své geny do intronů a exonů, se vyjádřil exons být mnohem menší, než zasahovat a sestříhané z intronů. Kromě těchto funkcí, tam jsou endogenní retroviry, fosilní ostatky bývalého virových infekcí a výrazně přes 50% genomu je přijímána existence opakujících se prvků a transpozony, různé formy, které lze snad interpretovat jako sobecké geny, které mají mechanismy, které se množí v hostitelském genomu., Některé z těchto opakujících se prvků a transpozonů jsou dnes stále aktivní, zatímco jiné zůstaly reliktem poté, co ztratily schopnost dále se množit v genomu.
Na závěr lze genomy rozdělit do dvou hlavních tříd: kompaktní a expanzivní. První z nich jsou genové husté, s pouze asi 10% nekódující oblasti a přísnou proporcionalitou mezi velikostí genomu a číslem genomu. Tato skupina se rozšiřuje na genomy o velikosti až asi 10 Mbp, pokrývající viry, bakterie, archaea a některé jednobuněčné eukaryoty., Druhá třída nevykazuje jasnou korelaci mezi velikostí genomu a počtem genů, je složena převážně z nekódujících prvků a pokrývá všechny multi-buněčné organismy.