Gene, un secolo e mezzo di storia e problematiche

Nel post precedente ho accennato a come la definizione che noi abbiamo di gene sia stata più volte modificata e rivoluzionata nel tempo. Volevo dedicare questo articolo alla storia del gene, alla sua scoperta e all’evoluzione del concetto che noi abbiamo di esso fino ai nostri giorni.
Nel 2003, il National Human Genome Research Institute ha iniziato un progetto volto a definire ed identificare ogni elemento funzionale presente nel nostro genoma. I risultati sono stati pubblicati su Nature in un articolo di 18 pagine dal titolo “Identification and analysis of functional elements in 1% of the Human Genome by the ENCODE pilot project”.
Ma prima, volevo tornare indietro nel tempo. Fino a quando? Fino alla seconda metà dell’800, quando due grandi lavori, indipendenti l’uno dall’altro, ipotizzarono l’esistenza di fattori che determinavano i caratteri di un individuo (oggi diremmo il fenotipo) e che questi erano ereditabili di generazione in generazione con delle modalità in parte prevedibili. Questi fattori erano discreti. Ovviamente sto parlando dei lavori di Mendel prima e Darwin poi. Questi lavori sono stati fatti con un’ottica completamente diversa: il lavoro di Mendel era un lavoro da genetista, quello di Darwin è ovviamente un lavoro sull’evoluzione. Non si sapeva ancora nulla sulla natura di questi fattori, e nulla si sarebbe saputo per molti anni ancora.
Sempre in questa metà di secolo, attorno al 1880 un biologo tedesco, Walther Flemming, scoprì i cromosomi (corpi colorati) come entità che si trasmettevano dalla cellula madre alle cellule figlie in egual numero. Sempre in questi anni vennero effettuati anche studi sulla fecondazione e sulla meiosi.
Ma ancora nulla si sapeva delle unità ereditabili, né si sapeva dove fossero né di cosa fossero costituite. Nel 1903 il biologo americano Walter Sutton ipotizzò che fossero i cromosomi i portatori fisici delle unità ereditarie e che questi caratteri ereditari esistono in coppie, così come in coppie esistono i cromosomi.
Pochi anni dopo il grande genetista americano Morgan spiegò il fenomeno della ricombinazione genetica e spiegò in questo modo i meccanismi dell’ereditarietà. Non solo, in base alla frequenza di ricombinazione riuscì anche a disegnare una mappa genetica, fissando in questo modo all’interno dei cromosomi i geni. Fino allora i geni, iniziavano già a chiamarsi così, erano stati piuttosto astratti, nessuno ne aveva mai visto uno, si sapeva che esistevano ma nulla di più. Morgan diede loro una posizione specifica e misurò anche le distanze tra un gene e l’altro (di questo ho parlato nell’articolo “Knock out”, nella parte scritta in corsivo; se vi interessa potete andarvela a leggere). Questa posizione venne chiamata Locus. I geni quindi esistevano, erano localizzati sui cromosomi in posizione fisse e venivano ereditati da una generazione all’altra. Ma ancora molto doveva essere scoperto. Tanto per cominciare erano davvero i geni a trasportare l’informazione? Sembrava di sì, ma mancava la prova fondamentale. Come erano organizzati questi geni? Qual’era la loro natura?
Quando si andò ad analizzare la natura dei cromosomi si scoprì che erano costituiti da due componenti, una chiamata nucleina e l’altra erano le proteine. La composizione della nucleina era innanzitutto di natura acida, e poi aveva una struttura decisamente molto più semplice rispetto alle proteine. Da qui nacque una disputa durata diversi decenni che vedeva contrapposti chi credeva che fosse la nucleina la responsabile della trasmissione ereditaria dei caratteri e chi invece le proteine. Questa disputa finì nel 1944 quando l’americano Avery, in uno degli esperimenti più importanti della biologia molecolare, dimostrò che era la nucleina la sostanza portatrice dell’informazione, in quanto, se estratta da batteri patogeni, era la sola in grado di “trasformare” dei batteri non patogeni in patogeni, anche a bassissime concentrazioni. Stranamente i risultati di Avery non destarono lo scalpore che ci si sarebbe atteso.
Sempre negli anni quaranta del secolo scorso nacque la famosa idea che ciascun gene dia origine ad uno specifico enzima.
Infine, negli anni 50 venne finalmente scoperta la struttura molecolare della nucleina, o DNA, da esperimenti sulla diffrazione di raggi X dagli arcinoti Watson e Crick.
Ora si avevano in mano importanti informazioni: I geni sono delle unità discrete costituite di DNA e localizzate in posizioni fisse sui cromosomi. Sono i responsabili della trasmissione ereditaria dei caratteri e ciascuno di loro contiene l’informazione per costruire una proteina.
Si iniziò a studiare il codice genetico, come cioè dal linguaggio dei quattro nucleotidi A, T, C e G si potesse arrivare al linguaggio delle proteine, costituite di amminoacidi. Si scoprì inoltre che tra il DNA e la proteina c’era un intermediario, l’RNA messaggero. Sono gli anni 60, gli anni del dogma centrale della biologia molecolare che enunciava che l’informazione passava dal DNA, all’RNA e quindi alle proteine. Attraverso un sistema di codifica ben determinato. Questo dogma ebbe vita breve con la scoperta dei retrovirus.
La definizione “un gene una proteina” però iniziava ad andare stretta già in quegli anni, perchè alcuni geni davano origine a degli RNA che però non venivano tradotti in proteine, ma davano origine ai ribosomi e agli RNA transfer.
Negli anni settanta si iniziò a scoprire come i geni erano organizzati e come venivano espressi e letti. Si iniziò quindi a definire gene una sequenza funzionale compresa tra un codone di inizio ed uno di fine. Una cosiddetta ORF, una open reading frame. Il concetto di open reading frame si basa sul fatto che i geni vengono letti a gruppi di tre nucleotidi, o codoni, ciascuno dei quali codifica per un amminoacido. Perciò una sequenza:

CATGCCAATTAGCTAA

Può essere letta: CAT-GCC-AAT-TAG-CTA-A… oppure ..C-ATG-CCA-ATT-AGC-TAA , oppure ancora: ..CA-TGC-CAA-TTA-GCT-AA.. Ci si ferma qua perchè slittando di un altro nucleotide ancora si finisce nel primo caso.
Siccome la seconda lettura possiede un ATG e un TAA che sono rispettivamente il codone di inizio e uno dei codoni di fine, molto probabilmente è la lettura giusta. Da notare che non ci sono solo questi tre modi per leggere una sequenza, ma ci sono anche i rispettivi per leggere la sequenza complementare. Per questo si dice che una sequenza si può leggere in sei modi diversi.
Contemporaneamente si sviluppavano degli algoritmi per predire se una sequenza potesse essere o meno una ORF. L’inizio della bioinformatica.
La definizione di gene dovette essere ancora cambiata in seguito alla scoperta degli esoni e degli introni e dello splicing alternativo (leggersi l’inizio dell’articolo precedente). La ORF non era più continua, ma interrotta dagli introni e inoltre poteva dare origine a proteine diverse. Diciamo che si potrebbe dire un gene molte proteine. Ma comunque sarebbe scorretto, perchè per proteina si intende un prodotto funzionale, mentre spesso i geni codificano per delle subunità di una proteina, che da sole non hanno alcuna funzione. Quindi si potrebbe correggere con un gene (o ORF) codifica una serie di prodotti funzionali, proteine o RNA. Una definzione di gene che tenga conto di questa realtà è “un locus di esoni cotrascritti”
Veniamo ai giorni nostri. Attualmente si tende a definire un gene in base alla sua sequenza. una definizione potrebbe essere, in lingua originale  “a locatable region of genomic sequence, corresponding to a unit of inheritance, which is associated with regulatory regions, transcribed regions and/or other functional sequence regions” Traducibile con “una regione localizzabile della sequenza genomica, corrispondente ad un’unità ereditaria che è associata a regioni regolatrici, a regioni trascrivibili e/o altre sequenze funzionali” (Pearson 2006).
Con questa definizione tuttavia si hanno dei problemi. Infatti, sebbene nessuna definizione prima d’ora enunciata parlasse delle sequenze regolatrici, includerle nella definizione potrebbe essere problematico, visto che molte sequenze regolatrici sono estremamente distanti dalla regione codificante. In questo modo si avrebbe un’idea di gene “diluita” nel genoma e non compatta in un singolo locus.
Un altro problema che si fa avanti è la scoperta che in moltissimi casi i geni sono sovrapposti, dividono cioè la stessa sequenza di DNA, ma posseggono diverse reading frame.  Sono geni letti in maniera sfalsata, quindi.
Come vedete, non esiste una definizione di Gene che sia completamente senza problemi.
Ma veniamo, finalmente, al famoso ENCODE project, di cui parlavao all’inizio. Siamo finalmente arrivati alle ultime battute. Questo progetto aveva lo scopo di definire ed identificare ogni elemento funzionale presente nel nostro genoma. Cosa hanno ottenuto?
Innanzitutto, se per funzionale si intende che viene trascritto, una grande quantità di trascritti provenienti da regioni non identificate prima come geni è stata rivelata. Di questo problema mi sono occupato diffusamente nell’articolo “Dark Matter”, materia oscura, perchè di questo si tratta. Trascritti di cui non riusciamo a dare una spiegazione funzionale.
Inoltre, in contrasto con la definizione di gene come unità fisica definita nello spazio e separata dagli altri tende a cadere sia in base alla scoperta dei geni sovrapposti, sia perchè in questo modo si formano delle ampie regioni genomiche in cui sono raggruppati molti geni sovrapposti senza possibilità di definire una regione genica ed intergenica con sicurezza.
Insomma, sembra quasi che, ad un secolo e mezzo di distanza la definizione di Gene non possa più rispondere ai recenti (più o meno) sviluppi delle biologia molecolare. I ricercatori del ENCODE-project hanno provato a scendere a compromessi e hanno provato a definire un gene così:

“The gene is a union of genomic sequences encoding a coherent
set of potentially overlapping functional products.”

Il gene è un unione di sequenze genomiche codificanti un set coerente di prodotti funzionali potenzialmente sovrapposti.
Sembra una definizione abbastanza semplice, tuttosommato. Io mi aspettavo qualcosa di più complesso, ma sembra funzionare lo stesso. è Semplice, concisa e lineare. A volte le cose semplici sono le più corrette.
Vediamo se funziona:
-in caso di geni continui, la definizione si riduce alla classica definizione di gene che sappiamo: una sequenza di DNA che codifica per un prodotto funzionale, RNA o proteina.
-Per i geni discontinui e/o sovrapposti funziona, perchè è considerato come unione di sequenze codificanti che possono anche essere sovrapposte.
-Anche lo splicing alternativo sembra essere spiegato, in quanto parla di prodotti finali, quindi possono essere anche molteplici.
-Le regioni regolatrici non sono incluse nella definizione. Qui secondo me è stata una scelta. Se fossero state incluse però, avrebbero complicato ulteriormente la questione.

Riconosco che è una questione davvero complicata. Alcune cose non sono chiare nemmeno a me. Comunque la mia intenzione era quella di darvi un’idea di come le cose siano andate complicandosi sempre di più. Ma credo sia proprio questo il bello! alla prossima.

Per scrivere questo articolo mi sono basato in parte sul seguente articolo: “Mark B. Gerstein, Can Bruce, Joel S. Rozowsky, et al., What is a gene, post-ENCODE? History and updated definition, Genome Res, 2007 17: 669-681″

Tags: , , ,

Reply

L'indirizzo email non verrà pubblicato. I campi obbligatori sono contrassegnati *

*

È possibile utilizzare questi tag ed attributi XHTML: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>