Hvor mange gener er i et genom?
Reader-Modus
Vi har allerede undersøkt stort mangfold i genom-størrelser i hele den levende verden (se Tabell i vignett på «Hvor stor er genomer?»). Som et første skritt i raffinering vår forståelse av informasjonen, innholdet i disse genomer, trenger vi en følelse av antall gener som de harbor. Når vi refererer til gener vi skal tenke på protein-kodende gener unntatt den stadig voksende samling av RNA-koding områder i genomet.,
Figur 1: Antall gener som en funksjon av genomstørrelse. Figuren viser data for et utvalg av bakterier og archaea, med skråningen av data line som bekrefter en enkel tommelfingerregel knyttet genomstørrelse og gen-nummeret. (Tilpasset fra M. Lynch, Opprinnelsen av Genom-Arkitektur.,)
Over hele tree of life, selv om genome størrelser variere med så mye som 8 størrelsesordener (fra <2 kb for Hepatitt D virus (BNID 105570) til >100 Gbp for den Marmorerte lungfish (BNID 100597) og visse Fritillaria blomster (BNID 102726)), omfanget i antall gener varierer fra mindre enn 5 størrelsesordener (fra virus som MS2 og QB bakteriofager å ha bare 4 gener til om lag hundre tusen i hvete). Mange bakterier har flere tusen gener., Dette genet innhold er proporsjonal til genomstørrelse og protein størrelse som vist nedenfor. Interessant, eukaryote genomer, som ofte er tusen ganger større enn de i prokaryotes, inneholder bare en størrelsesorden flere gener enn sine prokaryotic kolleger. Manglende evne til å lykkes estimere antall gener i eukaryotes basert på kunnskap om genet innhold av prokaryotes var en av de uventede vendinger av moderne biologi.,
Tabell 1: En sammenligning mellom antall gener i en organisme, og en naiv estimat basert på genomstørrelse dividert med en konstant faktor av 1000bp/gen, dvs. spådd antall gener = genomstørrelse/1000. Man finner at dette grov tommelfingerregel fungerer overraskende godt for mange bakterier og archaea, men mislykkes miserably for flercellede organismer.
Den enkleste estimat for antall gener i genomet utfolder seg ved forutsatt at hele genomet koder for gener som er av interesse., For å gjøre ytterligere fremskritt med anslaget, må vi ha et mål på antall aminosyrer i proteinet som vi vil ta å bli omtrent 300, bevisste imidlertid av det faktum at som genomer, proteiner kommer i en rekke størrelser seg selv som er avslørt i vignett på at temaet «hva er de størrelser av proteiner?». På grunnlag av denne mager drift, ser vi at antall baser som trengs for å kode for våre proteinet som er omtrent 1000 (3 base-par per aminosyre)., Derfor, i denne tankegangen, antall gener som finnes i et genom er anslått til å være genomstørrelse/1000. For bakterielle genomer, denne strategien fungerer overraskende godt som det kan sees i tabell 1 og Figur 1. For eksempel, når den brukes til E. coli K-12, genom av 4,6 x 106 bp, dette tommelfingerregel fører til et estimat på 4600 gener, som kan sammenlignes med dagens beste kunnskapen om dette kvantumet som er 4225. I går gjennom et dusin representant bakterier og archeal genomer i tabell a på samme måte slående prediktiv kraft til innenfor ca 10% er observert., På den annen side, denne strategien mislykkes spektakulært når vi bruker det til eukaryote genomer, resulterer for eksempel i anslå at antall gener i det menneskelige genom bør være 3,000,000, et grovt overvurderer. Den upålitelighet av dette anslaget bidrar til å forklare eksistensen av Genesweep betting bassenget som så sent som tidlig på 2000-tallet hadde folk satser på antall gener i det menneskelige genom, med folks anslag varierer med mer enn en faktor på ti.,
Figur 2: De ulike sekvens komponentene som utgjør den menneskelige genom. Ca 1,5% av genomet består av ≈20,000 protein-kodende sekvenser som er ispedd av ikke-koding introns utgjør ca 26%. Transposable elementer er den største fraksjonen (40-50%), inkludert for eksempel lang ispedd kjernefysiske elementer (Linjer), og kort ispedd kjernefysiske elementer (SINEs). De fleste transposable elementer er genomisk rester, som for tiden er nedlagte. (BNID 110283, Tilpasset fra T. R. Gregory Nat Rev Genet., 9:699-708, 2005 basert på International Human Genom-Sekvensering Consortium. Første sekvensering og analyse av det humane genom. Arten 409:860 2001.)
Hva forklarer denne spektakulære unnlatelse av de mest naive estimat og hva lærer den oss om informasjon organisert i genomet? Eukaryote genomer, særlig de som er forbundet med flercellede organismer, er preget av en rekke spennende funksjoner som forstyrrer den enkle koding bilde utnyttet i den naive estimat., Disse forskjellene i genom-bruk er avbildet pictorially i Figur 2 som viser prosentandelen av genom brukes til andre formål enn protein koding. Så tydelig i Figur 1, prokaryotes kan effektivt kompakt deres protein-kodende sekvenser slik at de er nesten kontinuerlig, og føre til mindre enn 10% av deres genomer blir tilordnet til ikke-kodende DNA (12% i E. coli, BNID 105750), mens i mennesker over 98% (BNID 103748) er ikke protein-koding.,
oppdagelsen av disse andre bruker av genom utgjør noen av de viktigste innsikt i DNA, og biologi mer generelt, fra de siste 60 årene. En av disse alternative bruksområder for genomisk real estate er regulatory genom, nemlig i store deler av genomet er brukt som mål for binding av regulatoriske proteiner som kan gi opphav til kombinatoriske kontroll så typisk forsikring i flercellede organismer., En annen av de viktigste funksjonene i eukaryote genomer er organiseringen av sine gener til introns og exons, med uttrykt exons blir mye mindre enn de mellomliggende og skjøtes ut introns. Utover disse funksjonene, det er endogene retroviruses, fossile levninger av tidligere viral infeksjoner og påfallende, over 50% av genomet er tatt opp ved eksistensen av gjentakende elementer og transposons, ulike former som kan kanskje tolkes som egoistiske gener som har mekanismer for å spre seg i en rekke genom., Noen av disse gjentakende elementer og transposons er fortsatt aktive i dag, mens andre har vært en levning etter å ha mistet evnen til å ytterligere spredning i genomet.
I konklusjonen, genomer kan deles inn i to hovedklasser: kompakt og ekspansive. De førstnevnte er genet tett, med bare ca 10% av ikke-kodende region og strenge forholdsmessighet mellom genomstørrelse og genom-nummeret. Denne gruppen omfatter forsikring av størrelse opp til ca 10 Mbp, som dekker virus, bakterier og archaea noen encellet eukaryotes., Den siste klassen viser ingen klar sammenheng mellom genomstørrelse og gene nummer, består hovedsakelig av ikke-kodende elementer og dekker alle flercellede organismer.