hoeveel genen zitten er in een genoom?
Reader Mode
we hebben de grote diversiteit in genoomgroottes in de levende wereld al onderzocht (zie tabel in het vignet over “hoe groot zijn genomen?”). Als eerste stap in het verfijnen van ons begrip van de informatie-inhoud van deze genomen, hebben we een gevoel nodig van het aantal genen dat ze bevatten. Wanneer we verwijzen naar genen zullen we denken aan eiwit-coderende genen met uitzondering van de steeds groeiende verzameling van RNA-codeergebieden in genomen.,
figuur 1: aantal genen als functie van de genoomgrootte. De figuur toont gegevens voor een verscheidenheid van bacteriën en archaea, met de helling van de gegevenslijn die de eenvoudige vuistregel met betrekking tot genoomgrootte en genaantal bevestigt. (Aangepast van M. Lynch, the Origins of Genome Architecture.,)
over de hele levensboom, hoewel de grootte van het genoom tot 8 ordes van grootte verschilt (van <2 kb voor het Hepatitis D-virus (BNID 105570) tot >100 Gbp voor de gemarmerde longvis (BNID 100597) en bepaalde Fritillaria bloemen (BNID 102726)), varieert het aantal genen varieert met minder dan 5 ordes van grootte (van virussen zoals MS2 en QB bacteriofagen met slechts 4 genen tot ongeveer honderdduizend in tarwe). Veel bacteriën hebben enkele duizenden genen., Dit gengehalte is proportioneel aan de genoomgrootte en eiwitgrootte zoals hieronder getoond. Interessant, eukaryotic genomen, die vaak duizend keer of meer groter zijn dan die in prokaryotes, bevatten slechts een orde van grootte meer genen dan hun prokaryotic tegenhangers. Het onvermogen om het aantal genen in eukaryotes met succes te schatten die op kennis van de geninhoud van prokaryotes worden gebaseerd was één van de onverwachte wendingen van moderne biologie.,
Tabel 1: een vergelijking tussen het aantal genen in een organisme en een naïeve schatting gebaseerd op de genoomgrootte gedeeld door een constante factor van 1000bp/gen, d.w.z. het voorspelde aantal genen = genoomgrootte / 1000. Men vindt dat deze ruwe vuistregel verrassend goed werkt voor veel bacteriën en archaea, maar jammerlijk faalt voor meercellige organismen.
De eenvoudigste schatting van het aantal genen in een genoom ontvouwt zich door aan te nemen dat het geheel van het genoom codeert voor genen van belang., Om verdere vooruitgang te boeken met de schatting, moeten we een maat hebben van het aantal aminozuren in een typisch eiwit dat we ruwweg 300 zullen nemen, bewust echter van het feit dat, net als genomen, eiwitten in een grote verscheidenheid van maten zelf komen zoals blijkt uit het vignet over dat onderwerp, “wat zijn de maten van eiwitten?”. Op basis van deze magere aanname zien we dat het aantal basen dat nodig is om te coderen voor ons typische eiwit ongeveer 1000 is (3 basenparen per aminozuur)., Vandaar, binnen deze mindset, wordt het aantal genen in een genoom geschat om de grootte van het genoom/1000 te zijn. Voor bacteriële genomen, deze strategie werkt verrassend goed zoals kan worden gezien in Tabel 1 en Figuur 1. Bijvoorbeeld, wanneer toegepast op E. coli K-12, genoom van 4,6 x 106 bp, leidt deze vuistregel tot een schatting van 4600 genen, die met de huidige beste kennis van deze hoeveelheid kan worden vergeleken die 4225 is. In het gaan door een dozijn representatieve bacteriën en archeal genomen in de lijst wordt een gelijkaardige opvallende voorspellende macht aan binnen ongeveer 10% waargenomen., Aan de andere kant faalt deze strategie spectaculair wanneer we ze toepassen op eukaryotische genomen, wat bijvoorbeeld resulteert in de schatting dat het aantal genen in het menselijk genoom 3.000.000 zou moeten zijn, een grove overschatting. De onbetrouwbaarheid van deze schatting helpt verklaren het bestaan van de genesweep weddenschappen pool die zo onlangs als de vroege jaren 2000 had mensen wedden op het aantal genen in het menselijk genoom, met mensen schattingen variëren met meer dan een factor tien.,
Figuur 2: de verschillende sequentiecomponenten waaruit het menselijk genoom bestaat. Ongeveer 1,5% van het genoom bestaat uit de ≈20.000 eiwit-coderende opeenvolgingen die door de niet coderende introns worden afgewisseld, die omhoog ongeveer 26% uitmaken. Transposeerbare elementen zijn de grootste fractie (40-50%), waaronder bijvoorbeeld lange afgewisseld nucleaire elementen (lijnen), en korte afgewisseld nucleaire elementen (SINEs). De meeste transposeerbare elementen zijn genomische restanten, die momenteel ter ziele zijn gegaan. (BNID 110283, naar T. R. Gregory Nat Rev Genet., 9: 699-708, 2005 gebaseerd op International Human Genome Sequencing Consortium. Het eerste rangschikken en analyse van het menselijke genoom. Natuur 409: 860 2001.)
wat verklaart deze spectaculaire mislukking van de meest naïeve schatting en wat leert het ons over de informatie georganiseerd in genomen? Eukaryotic genomen, vooral die geassocieerd met multicellular organismen, worden gekenmerkt door een gastheer van intrigerende eigenschappen die het eenvoudige codagebeeld in de naïeve schatting verstoren wordt uitgebuit., Deze verschillen in genoomgebruik worden pictorieel afgebeeld in Figuur 2 die het percentage van het genoom toont dat Voor andere doeleinden dan eiwitcodage wordt gebruikt. Zoals duidelijk in Figuur 1, kunnen prokaryotes efficiënt hun eiwitcodageopeenvolgingen compact maken zodat zij bijna ononderbroken zijn en in minder dan 10% van hun genomen resulteren die aan niet codaged DNA worden toegewezen (12% in E. coli, BNID 105750) terwijl in mensen meer dan 98% (BNID 103748) niet eiwitcodage is.,
De ontdekking van deze andere toepassingen van het genoom vormen enkele van de belangrijkste inzichten in DNA, en biologie meer in het algemeen, van de laatste 60 jaar. Een van deze alternatieve toepassingen voor genomisch Vastgoed is het regulerende genoom, namelijk de manier waarop grote brokken van het genoom worden gebruikt als doel voor de binding van regulerende eiwitten die aanleiding geven tot de combinatorische controle zo typisch voor genomen in meercellige organismen., Een andere van de belangrijkste eigenschappen van eukaryotic genomen is de organisatie van hun genen in introns en exons, met uitgedrukte exons die veel kleiner zijn dan het tussenliggende en uit introns gesplitste. Voorbij deze eigenschappen, zijn er endogene retrovirussen, fossiele relikwieën van vroegere virale besmettingen en opvallend, wordt meer dan 50% van het genoom opgenomen door het bestaan van het herhalen van elementen en transposons, verschillende vormen waarvan misschien als egoïstische genen kunnen worden geïnterpreteerd die mechanismen hebben om zich in een gastheergenoom te verspreiden., Sommige van deze het herhalen elementen en transposons zijn vandaag nog actief terwijl anderen een relikwie na het verliezen van de capaciteit zijn gebleven om zich verder in het genoom te verspreiden.
concluderend kan genomen worden verdeeld in twee hoofdklassen: compact en expansief. De eerste zijn gendichte, met slechts ongeveer 10% van niet-codeert gebied en strikte evenredigheid tussen genoomgrootte en genoomaantal. Deze groep strekt zich uit tot genomen van grootte tot ongeveer 10 Mbp, die virussen, bacteriën, archaea en sommige eencellige eukaryotes behandelen., Deze laatste klasse vertoont geen duidelijke correlatie tussen de grootte van het genoom en het genaantal, bestaat voornamelijk uit niet-coderende elementen en omvat alle meercellige organismen.