hvor mange gener er der i et genom?
Læsertilstand
Vi har allerede undersøgt den store mangfoldighed i genomstørrelser i hele den levende verden (se tabel i vignetten om “hvor store er genomer?”). Som et første skridt i raffinering af vores forståelse af informationsindholdet i disse genomer har vi brug for en fornemmelse af antallet af gener, de har. Når vi henviser til gener, vil vi tænke på proteinkodende gener, der udelukker den stadigt voksende samling af RNA-kodende regioner i genomer.,
Figur 1: antal gener som en funktion af genomstørrelse. Figuren viser data for en række bakterier og arkæa, med hældningen af datalinjen, der bekræfter den enkle tommelfingerregel vedrørende genomstørrelse og gennummer. (Tilpasset fra M. Lynch, oprindelsen af Genomarkitektur.,)
Over hele tree of life, men genom størrelser variere med så meget som 8 størrelsesordener (fra <2 kb for Hepatitis D virus (BNID 105570) til >100 Eur for Marmoreret lungefisk (BNID 100597) og visse Fritillaria blomster (BNID 102726)), den rækkevidde i antallet af gener, der varierer fra mindre end 5 størrelsesordener (fra vira som MS2 og QB bacteriophages der kun 4 gener til omkring et hundrede tusinde i hvede). Mange bakterier har flere tusinde gener., Dette genindhold er proportional med genomstørrelsen og proteinstørrelsen som vist nedenfor. Interessant nok indeholder eukaryote genomer, som ofte er tusind gange eller mere større end dem i prokaryoter, kun en størrelsesorden flere gener end deres prokaryote modstykker. Manglende evne til med succes at estimere antallet af gener i eukaryoter baseret på viden om genindholdet i prokaryoter var en af de uventede vendinger i moderne biologi.,
Tabel 1: sammenligning mellem antallet af gener i en organisme, og en naiv skøn baseret på genom-størrelse divideret med en konstant faktor 1000bp/gen, dvs forudsagte antal gener = genom-størrelse/1000. Man finder ud af, at denne rå tommelfingerregel fungerer overraskende godt for mange bakterier og arkæer, men mislykkes elendigt for multicellulære organismer.
det enkleste skøn over antallet af gener i et genom udfolder sig ved at antage, at hele genomet koder for gener af interesse., For at gøre yderligere fremskridt med estimatet, vi er nødt til at have et mål for antallet af aminosyrer i et typisk protein, som vi vil tage for at være omtrent 300, dog opmærksom på, at proteiner som genomer kommer i en lang række størrelser selv, som det afsløres i vignet om dette emne, “Hvad er størrelsen på proteiner?”. På baggrund af denne magre antagelse ser vi, at antallet af baser, der er nødvendige for at kode for vores typiske protein, er omtrent 1000 (3 basepar pr., Derfor estimeres antallet af gener indeholdt i et genom inden for denne tankegang at være genomstørrelsen/1000. For bakterielle genomer fungerer denne strategi overraskende godt, som det kan ses i tabel 1 og figur 1. For eksempel, når den anvendes på E. coli K-12, genomet på 4,6.106 bp, fører denne tommelfingerregel til et estimat på 4600 gener, som kan sammenlignes med den nuværende bedste viden om denne mængde, som er 4225. Ved at gå gennem et dusin repræsentative bakterier og arkeale genomer i tabellen observeres en lignende slående forudsigelsesevne til inden for omkring 10%., På den anden side mislykkes denne strategi spektakulært, når vi anvender den på eukaryote genomer, hvilket for eksempel resulterer i estimatet af, at antallet af gener i det humane genom skal være 3.000.000, en grov overvurdering. Upålidelighed af dette skøn er med til at forklare eksistensen af Genesweep væddemål swimmingpool, som så sent som i begyndelsen af 2000’erne havde folk væddemål på antallet af gener i det menneskelige genom, med people ‘ s skøn varierer med mere end en faktor ti.,
figur 2: de forskellige sekvenskomponenter, der udgør det humane genom. Omkring 1,5% af genomet består af 20,000 20.000 protein-kodende sekvenser, som er afbrudt af de ikke-kodende introner, der udgør omkring 26%. Transposable elementer er den største fraktion (40-50%), herunder for eksempel lange interspersed nukleare elementer (linjer), og korte interspersed nukleare elementer (SINEs). De fleste transposable elementer er genomiske rester, som i øjeblikket er hedengangne. (BNID 110283, Tilpasset fra T. R. Gregory Nat Rev Genet., 9: 699-708, 2005 baseret på International Human Genome se .uencing Consortium. Indledende sekventering og analyse af det humane genom. Natur 409: 860 2001.)
hvad forklarer denne spektakulære fiasko af det mest naive skøn, og hvad lærer det os om de oplysninger, der er organiseret i genomer? Eukaryote genomer, især dem, der er forbundet med multicellulære organismer, er kendetegnet ved en række spændende træk, der forstyrrer det enkle kodningsbillede, der udnyttes i det naive skøn., Disse forskelle i genombrug er afbildet billedligt i figur 2, som viser procentdelen af genomet, der anvendes til andre formål end proteinkodning. Så tydeligt som i Figur 1, prokaryotes kan effektivt, kompakt deres protein kodende sekvenser, sådan at de er i næsten konstant og resultere i mindre end 10% af deres genomer, der er tildelt ikke-kodende DNA (12% i E. coli, BNID 105750) henviser til, at mennesker over 98% (BNID 103748) er ikke protein kodende.,
opdagelsen af disse andre anvendelser af genomet udgør nogle af de vigtigste indsigter i DNA, og biologi mere generelt, fra de sidste 60 år. En af disse alternative anvendelser for genomisk fast ejendom er den regulerende genom, nemlig den måde, som store dele af genomet, der anvendes som mål for bindingen af regulatoriske proteiner, der giver anledning til kombinatorisk kontrol, der er så typisk af genomer i flercellede organismer., Et andet af de vigtigste træk ved eukaryote genomer er organiseringen af deres gener i introner og eksoner, hvor de udtrykte eksoner er meget mindre end de mellemliggende og splejsede introner. Ud over disse funktioner er der endogene retrovira, fossile relikvier fra tidligere virusinfektioner og påfaldende, over 50% af genomet optages af eksistensen af gentagne elementer og transposoner, hvoraf forskellige former måske kan fortolkes som egoistiske gener, der har mekanismer til at sprede sig i et værtsgenom., Nogle af disse gentagende elementer og transposoner er stadig aktive i dag, mens andre har forblevet et relikvie efter at have mistet evnen til yderligere at proliferere i genomet.
afslutningsvis kan genomer opdeles i to hovedklasser: kompakt og ekspansiv. 10% af ikke-kodende region og streng proportionalitet mellem genomstørrelse og genomnummer. 10 Mbp, der dækker vira, bakterier, archaea og nogle unicellulære eukaryoter., Sidstnævnte klasse viser ingen klar sammenhæng mellem genomstørrelse og gennummer, består hovedsagelig af ikke-kodende elementer og dækker alle multi-cellulære organismer.