câte gene sunt într-un genom?
modul cititor
am examinat deja marea diversitate a dimensiunilor genomului din întreaga lume vie (vezi tabelul din vinieta despre „cât de mari sunt genomii?”). Ca un prim pas în rafinarea înțelegerii noastre a conținutului informațional al acestor genomi, avem nevoie de un sentiment al numărului de gene pe care le adăpostesc. Când ne referim la gene, ne vom gândi la gene care codifică proteinele, excluzând colecția în continuă expansiune a regiunilor care codifică ARN în genomuri.,
Figura 1: Numărul de gene în funcție de dimensiunea genomului. Figura prezintă date pentru o varietate de bacterii și arhaea, panta liniei de date confirmând regula simplă de degetul mare referitoare la dimensiunea genomului și numărul genei. (Adaptat de la M. Lynch, originile arhitecturii genomului.,)
Peste tot pomul vieții, deși genomul dimensiunile diferă de la fel de mult ca 8 ordine de mărime (de la <2 kb pentru virusul Hepatitei D (BNID 105570) pentru >100 Gbp pentru Marmură lungfish (BNID 100597) și anumite Fritillaria flori (BNID 102726)), intervalul în numărul de gene variază de la mai puțin de 5 ordine de mărime (de la viruși, cum ar fi MS2 și QB bacteriofagi având doar 4 gene, la aproximativ o sută de mii de grâu). Multe bacterii au câteva mii de gene., Acest conținut de gene este proporțional cu dimensiunea genomului și dimensiunea proteinei, după cum se arată mai jos. Interesant este că genomii eucarioți, care sunt adesea de o mie de ori sau mai mari decât cei din procariote, conțin doar un ordin de mărime mai multe gene decât omologii lor procarioți. Incapacitatea de a estima cu succes numărul de gene din eucariote pe baza cunoașterii conținutului de gene al procariotelor a fost una dintre răsturnările neașteptate ale biologiei moderne.,
Tabelul 1: comparație între numărul de gene de la un organism și un naiv estimare bazate pe genom de dimensiuni împărțit printr-un factor constant de 1000bp/gene, adică numărul prezis de gene = genom de dimensiuni/1000. Se constată că această regulă brută de degetul mare funcționează surprinzător de bine pentru multe bacterii și arhaea, dar eșuează mizerabil pentru organismele multicelulare.cea mai simplă estimare a numărului de gene dintr-un genom se desfășoară presupunând că întregul genom codifică genele de interes., Pentru a face progrese suplimentare cu estimarea, trebuie să avem o măsură a numărului de aminoacizi într-o proteină tipică pe care o vom lua pentru a fi de aproximativ 300, cunoscând totuși faptul că, la fel ca genomii, proteinele vin într-o mare varietate de dimensiuni în sine, așa cum se arată în vinieta pe acest subiect, „care sunt dimensiunile proteinelor?”. Pe baza acestei presupuneri slabe, vedem că numărul de baze necesare pentru codificarea proteinei noastre tipice este de aproximativ 1000 (3 perechi de baze per aminoacid)., Prin urmare, în această mentalitate, numărul de gene conținute într-un genom este estimat a fi dimensiunea genomului/1000. Pentru genomii bacterieni, această strategie funcționează surprinzător de bine, așa cum se poate observa în tabelul 1 și Figura 1. De exemplu, atunci când este aplicat la E. coli K-12, genomul de 4,6 x 106 bp, această regulă conduce la o estimare a genelor 4600, care poate fi comparată cu cea mai bună cunoaștere actuală a acestei cantități, care este 4225. În trecerea printr-o duzină de bacterii reprezentative și genomuri arhaice în tabel se observă o putere predictivă similară izbitoare în aproximativ 10%., Pe de altă parte, această strategie eșuează spectaculos atunci când o aplicăm genomilor eucariote, rezultând, de exemplu, în estimarea că numărul de gene din genomul uman ar trebui să fie de 3.000.000, o supraestimare brută. Lipsa de fiabilitate a acestei estimări explică existența Genesweep pariu care recent ca la începutul anilor 2000 a avut oameni de pariuri pe numărul de gene în genomul uman, cu oameni estimările variază cu un factor mai mare de zece.,
Figura 2: diferite secvență de componente care alcătuiesc genomul uman. Aproximativ 1,5% din genom este format din ≈20.000 secvențe de codificare a proteinelor care sunt intercalate de intronii care nu codifică, reprezentând aproximativ 26%. Elementele transpozabile sunt cea mai mare fracție (40-50%), incluzând, de exemplu, elemente nucleare intercalate lungi (linii) și elemente nucleare intercalate scurte (SINEs). Cele mai multe elemente transpozabile sunt resturi genomice, care sunt în prezent defuncte. (BNID 110283, adaptat de la T. R. Gregory Nat Rev Genet., 9: 699-708, 2005 bazat pe consorțiul internațional de secvențiere a Genomului Uman. Secvențierea inițială și analiza genomului uman. Natură 409:860 2001.ce explică acest eșec spectaculos al celei mai naive estimări și ce ne învață despre informațiile organizate în genomuri? Genomii eucarioți, în special cei asociați cu organismele multicelulare, se caracterizează printr-o serie de caracteristici interesante care perturbă imaginea simplă de codificare exploatată în estimarea naivă., Aceste diferențe în utilizarea genomului sunt reprezentate pictural în Figura 2, care arată procentul genomului utilizat în alte scopuri decât codificarea proteinelor. Cum reiese din Figura 1, procariote poate fi eficient compact lor de proteine secvențe de codificare, astfel încât acestea sunt aproape continuă și rezultatul în mai puțin de 10% din genomul lor fiind atribuite non ADN-ul de codificare (12% în E. coli, BNID 105750) întrucât, în oameni de peste 98% (BNID 103748) este non proteine de codificare.,descoperirea acestor alte utilizări ale genomului constituie unele dintre cele mai importante informații despre ADN și biologie, în general, din ultimii 60 de ani. Una dintre aceste utilizări alternative pentru imobiliare genomice este genomul de reglementare, și anume, modul în care bucăți mari ale genomului sunt folosite ca ținte pentru legarea proteinelor de reglementare care dau naștere controlului combinatorial atât de tipic genomilor în organismele multicelulare., O altă caracteristică cheie a genomului eucariot este organizarea genelor lor în introni și exoni, exonii exprimați fiind mult mai mici decât intronii care intervin și s-au îmbinat. Dincolo de aceste caracteristici, există retrovirusuri endogene, relicve fosile ale fostelor infecții virale și, în mod izbitor, peste 50% din genom este preluat de existența unor elemente repetitive și transpozoni, diverse forme ale cărora pot fi interpretate ca gene egoiste care au mecanisme de proliferare într-un genom gazdă., Unele dintre aceste elemente repetitive și transpozoni sunt încă active astăzi, în timp ce altele au rămas o relicvă după ce și-au pierdut capacitatea de a prolifera în continuare în genom.în concluzie, genomul poate fi împărțit în două clase principale: compact și expansiv. Primele sunt gene dense, cu doar aproximativ 10% din regiune non-codificare și proporționalitate strictă între dimensiunea genomului și numărul genomului. Acest grup se extinde la genomi de dimensiuni de până la aproximativ 10 Mbp, acoperind viruși, bacterii, arhaea și unele eucariote unicelulare., Această din urmă clasă nu prezintă o corelație clară între dimensiunea genomului și numărul genei, este compusă în mare parte din elemente care nu codifică și acoperă toate organismele multi-celulare.