hur många gener finns i ett genom?

läsarläge

Vi har redan undersökt den stora mångfalden i genomstorlekar över hela världen (Se tabell i vignetten på ” hur stora är genomer?”). Som ett första steg i att förfina vår förståelse av informationsinnehållet i dessa genom behöver vi en känsla av antalet gener som de hyser. När vi hänvisar till gener kommer vi att tänka på proteinkodande gener exklusive den ständigt växande samlingen av RNA-kodande regioner i genom.,

Figur 1: Antal gener som en funktion av genomstorlek. Figuren visar data för en mängd olika bakterier och archaea, med lutningen på datalinjen som bekräftar den enkla tumregeln som rör genomstorlek och gennummer. (Anpassad från M. Lynch, ursprunget till Genomarkitektur.,)

Över hela träd, men genomet storlekar skilja sig med så mycket som 8 storleksordningar (från <2 kb för Hepatit D-virus (BNID 105570) till >100 Eur för den Marmorerade lungfiskar (BNID 100597) och vissa Fritillaria blommor (BNID 102726)), de varierar i antal gener varierar från mindre än 5 tiopotenser (från virus som MS2 och QB bakteriofager med endast 4 gener till omkring hundra tusen i vete). Många bakterier har flera tusen gener., Detta geninnehåll är proportionellt mot genomstorleken och proteinstorleken som visas nedan. Intressant, eukaryota genomer, som ofta är tusen gånger eller mer större än de i prokaryoter, innehåller bara en storleksordning mer gener än deras prokaryota motsvarigheter. Oförmågan att framgångsrikt uppskatta antalet gener i eukaryoter baserat på kunskap om geninnehållet i prokaryoter var en av de oväntade vändningarna i modern biologi.,

tabell 1: en jämförelse mellan antalet gener i en organism och en naiv uppskattning baserad på genomstorleken dividerad med en konstant faktor av 1000bp/gen, d.v. s. förutsagt antal gener = genomstorlek / 1000. Man finner att denna råa tumregel fungerar förvånansvärt bra för många bakterier och archaea men misslyckas kapitalt för multicellulära organismer.

den enklaste uppskattningen av antalet gener i ett Genom utvecklas genom att anta att helheten av genomkoderna för gener av intresse., För att göra ytterligare framsteg med uppskattningen måste vi ha ett mått på antalet aminosyror i ett typiskt protein som vi kommer att ta för att vara ungefär 300, medvetna om det faktum att proteiner som genomer kommer i en mängd olika storlekar själva som avslöjas i vinjetten på det ämnet, ” vilka är storlekarna på proteiner?”. På grundval av detta magra antagande ser vi att antalet baser som behövs för att koda för vårt typiska protein är ungefär 1000 (3 baspar per aminosyra)., Därför, inom denna tankegång, uppskattas antalet gener som ingår i ett genom att vara genomstorleken/1000. För bakteriella genom fungerar denna strategi förvånansvärt bra som kan ses i tabell 1 och figur 1. Till exempel, när den appliceras på E. coli K-12, genomet av 4,6 x 106 bp, denna tumregel leder till en uppskattning av 4600 gener, som kan jämföras med den nuvarande bästa kunskapen om denna kvantitet som är 4225. Genom att gå igenom ett dussin representativa bakterier och archeal genomer i tabellen observeras en liknande slående prediktiv kraft inom ca 10%., Å andra sidan misslyckas denna strategi spektakulärt när vi tillämpar den på eukaryota genom, vilket till exempel resulterar i uppskattningen att antalet gener i det mänskliga genomet bör vara 3.000.000, en grov överskattning. Opålitligheten i denna uppskattning bidrar till att förklara förekomsten av Genesweep betting pool som så sent som i början av 2000-talet hade folk satsar på antalet gener i det mänskliga genomet, med människors uppskattningar varierar med mer än en faktor på tio.,

Figur 2: de olika sekvenskomponenterna som utgör det mänskliga genomet. Om 1.5% av genomet består av de 20,000 proteinkodningssekvenserna som är interspersed av de icke-kodande intronerna, vilket utgör ca 26%. Transposerbara element är den största fraktionen (40-50%), t.ex. långa interspersed nuclear elements (LINEs) och korta interspersed nuclear elements (SINEs). De flesta överförbara element är genomiska rester, som för närvarande är avstängda. (BNID 110283, Anpassas från T. R. Gregory Nat Rev Genet., 9:699-708, 2005 baserad på International Human Genome Sequencing Consortium. Initial sekvensering och analys av det mänskliga genomet. Naturen 409:860 2001.)

vad förklarar detta spektakulära misslyckande av den mest naiva uppskattningen och vad lär det oss om informationen som organiseras i genom? Eukaryota genomer, särskilt de som är associerade med multicellulära organismer, kännetecknas av en mängd spännande funktioner som stör den enkla kodningsbilden som utnyttjas i den naiva uppskattningen., Dessa skillnader i genomanvändning avbildas bildligt i Figur 2 som visar procentandelen av genomet som används för andra ändamål än proteinkodning. Som framgår av Figur 1 kan prokaryoter effektivt komprimera sina proteinkodningssekvenser så att de är nästan kontinuerliga och resulterar i att mindre än 10% av deras genom tilldelas icke-kodande DNA (12% i E. coli, BNID 105750) medan hos människor över 98% (BNID 103748) är icke-proteinkodning.,

upptäckten av dessa andra användningar av genomet utgör några av de viktigaste insikterna i DNA, och biologi mer allmänt, från de senaste 60 åren. En av dessa alternativa användningsområden för genomiska fastigheter är det regulatoriska genomet, nämligen det sätt på vilket stora bitar av genomet används som mål för bindning av regulatoriska proteiner som ger upphov till den kombinatoriska kontrollen så typisk för genomer i multicellulära organismer., En annan av de viktigaste egenskaperna hos eukaryotiska genom är organisationen av deras gener i introner och exoner, med de uttryckta exonerna är mycket mindre än de mellanliggande och skarvade intronerna. Utöver dessa funktioner, det finns endogena Retrovirus, fossila reliker av tidigare virusinfektioner och påfallande, över 50% av genomet tas upp av förekomsten av upprepade element och transposoner, olika former av som kanske kan tolkas som själviska gener som har mekanismer för att föröka sig i ett värdgenom., Några av dessa upprepande element och transposoner är fortfarande aktiva idag medan andra har förblivit en relik efter att ha förlorat förmågan att ytterligare föröka sig i genomet.

Sammanfattningsvis kan genomer delas in i två huvudklasser: kompakt och expansiv. Den förra är genen tät, med endast cirka 10% av icke-kodande region och strikt proportionalitet mellan genomstorlek och genomnummer. Denna grupp sträcker sig till genomer av storlek upp till ca 10 Mbp, som täcker virus, bakterier, archaea och några unicellulära eukaryoter., Den senare klassen visar ingen tydlig korrelation mellan genomstorlek och gennummer, består mestadels av icke-kodande element och täcker alla multicellulära organismer.

67733 totala visningar 4 visningar idag

Lämna ett svar

Din e-postadress kommer inte publiceras. Obligatoriska fält är märkta *