Dark matter

Sì.. lo so che sotto esami sarebbe meglio concentrarsi sullo studio, ma è più forte di me!

Il titolo di questo post è molto chiaro (o forse no?). Parliamo di materia oscura, ma non la materia oscura dell’universo.. di quella se ne occupano i fisici.. Ma parliamo della materia oscura del genoma. Interessante analogia. Questo, devo dirlo subito, non sarà un post in cui troverete spiegazioni, perchè spiegazioni al momento non ce ne sono, ma solo ipotesi. Questo post più che altro è fatto di domande.

Il genoma è una struttura molto complessa, il cui funzionamento non è del tutto chiaro. Direi anzi che sappiamo pochissimo su come funziona! Dai batteri fino a noi, il genoma ha subito un’evoluzione che l’ha portato, non solo ad ingrandirsi, ma anche ad incorporare sequenze dal significato per ora ignoto.

Qui trovate un elenco di alcuni organismi, dai lieviti fino a noi, ordinati secondo le dimensioni del genoma, espresse in megabasi Mb (1Mb= 10^6 basi).
Una tale differenza di dimesioni non è però linearmente proporzionale nè al numero di geni presenti, nè alla complessità dell’organismo.

E’ chiaro che c’è qualcosa che non va. Qualche calcolo che non torna.  Noi abbiamo circa 30 mila geni, un nematode 19000. un moscerino 13000. Per non parlare della densità genica. La densità genica del lievito è più di 40 volte la nostra.  Perchè questo? Perchè, come dicevo prima, il genoma nel corso dell’evoluzione ha acquisito moltissime sequenze non codificanti, dal significato ignoto, che fino a qualche anno fa veniva chiamato DNA spazzatura (Junk-DNA). Da cosa è composto questo DNA non codificante?

Sequenze regolatrici (promotori, enhancers), introni, sequenze altamente ripetute (satelliti, minisatelliti, microsatelliti), trasposoni (sequenze che si spostano all’interno del genoma), sequenze di origine virale e così via. Il tutto rende il DNA codificante appena l’1.5% di tutto il genoma!
Ci sono diverse teorie al riguardo. Secondo la teoria del gene egoista, questo sarebbe DNA parassita che sfrutta il DNA funzionante per propagarsi; secondo altri rappresenta un meccanismo di difesa: una mutazione ha molte più probabilità di generarsi in queste sequenze non codificanti, che nei geni.

Comunque si credeva che queste sequenze non solo non codificassero per proteine, ma che non venissero neppure trascritte. Del resto non aveva senso che fosse il contrario. La trascrizione è un meccanismo complessissimo, altamente regolato e soprattutto dispendioso dal punto di vista energetico. Non ha senso che vengano trascritte sequenze inutili.
Tuttavia, qualcosa ci deve essere sfuggito, perchè con le moderne tecniche di analisi del trascrittoma (tiling arrays, RNA-seq) si è scoperto proprio quello che non ci saremmo mai aspettati: molte sequenze di RNA si allineano perfettamente con sequenze genomiche non codificanti. Perchè mai, se è inutile, viene trascritto? Forse del tutto inutile non è. Forse abbiamo sbagliato noi, forse dovremmo evitare di chiamare inutile ogni cosa che non sappiamo cosa faccia.
E’ proprio questa la materia oscura a cui fa riferimento il titolo: sequenze di RNA trascritte non codificanti che aspettano ancora di essere classificate.
Ci sono delle ipotesi che tentano di inquadrare questo fenomeno, che ovviamente andranno verificate:

->Artefatti biologici: (per artefatto si intende comunemente errore) ovvero originano da una trascrizione non specifica e a bassa intensità del DNA, e siccome le il DNA non codificante è la maggior parte, la statistica la dice lunga.

->Geni non codificanti: Ci sono prove sperimentali che indicano che questa trascrizione inspiegata sia comunque in parte regolata, e questo suggerisce che i non-coding RNAs abbiano qualche funzione regolativa (del resto sono già noti alla comunità scientifica i micro-RNA e compagnia bella).

->Nuovi geni codificanti: Si ipotizza che ci possano essere dei geni ancora da scoprire e che questi vengano trascritti. Oppure possono essere degli pseudogeni che oramai hanno perso la loro funzione originaria.

Concludo con una nota. E’ normale che con le tecniche di analisi moderne e con il supporto della biologia computazionale le conoscenze che avevamo sul Genoma e sulla biologia in generale vangano stravolte. Semplicemente cambia il modo con cui vengono presi ed analizzati i dati e tutte le cose che prima davamo per certe ora vengono messe in discussione. In fondo tutti i dati che avevamo acquisito prima che le più moderne tecniche venissero messe a punto soffrivano di un grande difetto: il bias; tipico errore che si commette spesso quando si fanno esperimenti andando a cercare ciò che si vuole trovare, ignorando tutto il resto che magari non ci aspettiamo che ci sia e quindi non cerchiamo neppure. E’ normale che si trovassero solo trascritti di geni codificanti perchè non ci saremmo mai aspettati di trovare altro. Del resto le tecniche ancora non permettevano di fare altrimenti.

Se avete domande, suggerimenti, osservazioni critiche, insomma, se volete dire la vostra, non tiratevi indietro!

Tags: ,

  1. Alice’s avatar

    Interessantissimo! Oltretutto è un problema di informazione…probabilmente comune ad altri ambiti!

  2. Manuel’s avatar

    esatto.. è come se l’informazione si fosse dispersa… e non ne capisco bene il significato evolutivo!

  3. hronir’s avatar

    Eccomi con le mie domande: la prima, che al mio solito fa poco riferimento alla teoria e molto alla pratica: come si stabilisce la percentuale di DNA codificante? Riformulo: mi è chiaro (vabbe’, ci siamo capiti) come scopro che un pezzo di DNA rappresenta un gene: scopro quale proteina viene prodotta da quella sequenza quando passa in un ribosoma. Ma se sono così bravo da calcolare il rapporto basi-codificanti/basi-totali, significa che pretendo di conoscere *tutte* le sequenze codificanti di un certo genoma: come si fa una cosa del genere? Cioè, come si riesce a “dimostrare” che non ci sono altre sequenze codificanti fra il DNA che non sono riuscito ad associare ad una proteina?
    Sia chiaro, la mia non è una domanda filosofica à la “ma come possiamo mai essere sicuri che…”, bensì una domanda tecnica e specifica: al di là dell’affidabilità “filosofica” del metodo, qual è il metodo con cui si discriminano le sequenze codificanti da quelle che non lo sono?

    Poi ho una domanda forse più teorica. L’ipotesi che il DNA non codificante possa fare da “parafulmine” per le mutazioni, presuppone che il tasso di mutazione non dipenda dalla lunghezza del DNA. E’ davvero così? Non potrebbe invece darsi che il tasso di mutazioni è proprio proporzionale alla lunghezza del DNA (dopotutto, uno potrebbe dire, se ho più basi nella mia sequenza, aumento anche il numero di possibili errori che posso commettere nella replicazione). Bisognerebbe forse distinguere fra mutazioni da “errori di trascrizione” (e questi, da ignorante, direi che sono proprio proporzionali alla lunghezza del DNA) da altri tipi di mutazioni (ad esempio da interazione con radiazione, che mi verrebbe da dire essere proporzionali, a parità di condizioni, e in prima approssimazione, alla radice cubica della lunghezza, per questioni puramente dimensionali). Ci sono studi, a riguardo?

    Grazie, e complimenti per gli spunti di riflessione!

  4. Manuel’s avatar

    Ciao hronir..Le tue domande sono sempre bellissime! spero di poterti rispondere degnamente, allora..
    Il problema di riconoscere tutte le “basi codificanti” è molto serio. Il problema non è quello di “contare” una ad una le basi che codificano per qualcosa, perchè le basi, singolarmente, non codificano, ma si tratta essenzialmente di riconoscere le unità codificanti, o geni.
    Il grande passo in avanti che è stato fatto è, ovviamente, il sequenziamento del genoma umano e con il suo quello di molti altri organismi.. (Se ti interessa, puoi trovare una lista aggiornata qui: http://www.ncbi.nlm.nih.gov/Genomes/).. con questo risultato si ha a disposizione l’intera sequenza sulla quale è possibile teoricamente riconoscere i singoli geni. Ci sarà pertanto un elenco di geni certi, di cui siamo sicuri e consapevoli, e ci sarà anche un elenco di geni “predetti” che non si hanno prove sperimentali che codifichino, ma che per struttura ricordano un gene vero e proprio.

    Da qui ci colleghiamo alla tua domanda, ovvero, come faccio a riconoscere i geni, come faccio a riconoscere le sequenze codificanti in mezzo a quel caos?
    Innanzitutto si va per esclusione; come vedi dal grafico una parte impressionante del genoma è costituito da elementi ripetuti, ovvero sequenze più o meno lunghe ripetute dalle centinaia alle centinaia di migliaia di volte. Queste non possono essere sequenze codificanti. Altri elementi sono riconoscibili come sequenze di origine virale e così via. Questo però non ci risolve tutti i problemi. C’è comunque una grossa quantità di DNA che aspetta di essere classificata.
    Ci sono diversi metodi, alcuni teorici e altri pratici. Iniziamo da quelli teorici..
    I metodi teorici ci permettono però di arrivare a predire che una sequenza possa essere codificante. Serviranno prove sperimentali per dire se è o no un gene. Si basano sul fatto che le sequenze codificanti hanno una struttura abbastanza conservata, ovvero sono comprese tra un codone di inizio e un codone di stop (e non può contenere codoni di stop al suo interno). Statisticamente la frequenza del codone di stop è quella di una comune sequenza di tre basi: compare una volta ogni 64 basi. Che è ovviamente una distanza troppo corta affinchè la sequenza compresa possa essere definita codificante. Questo presupposto si basa sull’assunto che le basi siano equiprobabili, il che è abbastanza vero nelle regioni non codificanti, ma assolutamente falso in quelle codificanti. pertanto se osserviamo una frequenza decisamente minore del codone di stop (e di quello di inizio) del dovuto è possibile che le sequenze in considerazione siano dei geni.
    Ci sono altre sequenze che sono conservate nei geni, soprattuto quelli eucariotici: le giunzioni esone-introne (che delimitano la fine di un esone e l’inizio di un introne) e le sequenze del promotore (che sono sequenze a monte del codone di inizio e che regolano la trascrizione, anche se in questo caso sono meno conservate ed è più difficile riconoscerle). In questo modo si riesce abbastanza bene a isolare l’identità di un gene dal “rumore di fondo” delle sequenze non codificanti”. Ovviamente questo non è un metodo perfetto, perchè non possiamo aspettarci che tutti i geni rispettino queste regole (il discorso è poi anche complicato dal fatto che ci sono in teoria sei possibili modi con cui una sequenza può essere “letta”), ma è senz’altro un metodo per scremare. Dimenticavo di aggiungere che questo lavoro in genere viene fatto da software.

    I metodi pratici consistono in genere nell’isolare l’RNA messaggero (è piuttosto facile, visto che ha alcune caratteristiche particolari), sequenziarlo ed andare ad allineare le sequenze ottenute sul genoma (ovvero andare proprio a fare un confronto base per base) e vedere le regioni in cui le sequenze combaciano maggiormente. quelle sono a buon diritto dei geni veri e propri, perchè sono stati trascritti..(tuttavia non è così semplice come sembra, ho letto numerosi articoli a riguardo, e il lavoro che c’è dietro è notevole, te lo assicuro). Ripetendo questo lavoro molte volte e a partire da cellule diverse si ha una buona stima dei geni espressi totali.
    I geni poi possono anche essere individuati partendo da geni omologhi ottenuti in specie diverse.
    Venendo infine al tuo dubbio: “come si riesce a “dimostrare” che non ci sono altre sequenze codificanti fra il DNA che non sono riuscito ad associare ad una proteina”.. è una domanda molto saggia, perchè non ho la sicurezza di aver individuato ed isolato ogni sequenza. Non a caso, in lavori recenti (su uno dei quali mi sono basato per scrivere questo post) con delle nuove tecniche sono stati scoperti circa nuovi 2000 possibili geni non individuati prima.

    Quindi alla fine quelle 48 Mega Basi di DNA codificante sono una stima, abbastanza acurata, dovuta a questi ed altri metodi di identificazione.

    E qui si conclude la risposta alla tua prima domanda. spero di essere stato chiaro. esauriente e soprattutto spero di aver chiarito i tuoi dubbi e spero di non averti annoiato troppo.

    Quanto alla seconda domanda bisogna distinguere: ci sono le mutazioni dovute da agenti esterni: chimici, fisici e biologici (ad esempio virus); a mio avviso, ma potrei sbagliarmi, il tasso di mutazione dovuto a questi fattori dipende dalla lunghezza del DNA, perchè più DNA c’è più è facile che venga danneggiato .. (non capisco perchè dici “proporzionali, a parità di condizioni, e in prima approssimazione, alla radice cubica della lunghezza”.. ti sarei grato se me lo potessi spiegare perchè probabilmente hai anche ragione, ma non ti seguo..) mentre ci sono mutazioni dovute a errori durante la copiatura del DNA (prima della divisione cellulare). il tasso di queste mutazioni è molto basso si aggira ad una mutazione ogni miliardo di basi copiate, ovviamente più basi ci sono e più mutazioni incorrono.
    Quindi direi che le mutazioni ovviamente dipendono in parte dalla lunghezza del DNA, ma è anche vero che, escludendo i fattori ambientali, e basandoci solo su quelli intrinseci dovuti alla copiatura, se da una generazione all’altra c’è una mutazione, ho il 98,5% di probabilità che questa incorra nel DNA non codificante.

    Ripeto, spero di essere stato chiaro, in caso non lo fossi stato dimmelo e cercherò di migliorarmi. Se hai altre domande falle pure.. e davvero, grazie ancora!

    Manuel

  5. Manuel’s avatar

    Dimenticavo.. studi al riguardo ce ne sono sicuramente, solo che non ne ho mai letto uno.. però posso provare a cercarne!!

  6. hronir’s avatar

    Sulla prima domanda… semplicemente fantastico! Iper-esauriente e… esattamente il contrario della noia! — come sempre, del resto :)
    Man mano che li citavi, mi sono ricordato di aver letto di introni, codoni di inizio-fine, etc… rimango sempre sbalordito dalla complessità molecolare della vita!

    Sulla seconda domanda.
    La mia idea sulla radice cubica della lunghezza era… una fesseria. Ho scritto di fretta senza formalizzare il mio ragionamento, ma a farlo ora, rispondendoti, è emersa tutta la sua inconsistenza. Prima di tutto avevo in mente un’unico tipo di agente esterno, le radiazioni ionizzanti (deformazione professionale…) e non avevo pensato addirittura ai virus o ad altri fattori fisico-chimici. Ebbene: una mutazione da radiazione ionizzante, mi figuravo, sarà proporzionale, a fissata intensità di radiazione, al volume della molecola che subisce la mutazione (ma già qui ci sarebbe da ridire: forse la proporzionalità non è col volume, ma con la superficie esposta). A quel punto, invece di pensare che il volume della catena fosse banalmente la somma dei volumi delle basi (e dunque direttamente proporzionale alla lunghezza), ho pensato che il volume fosse proporzionale alla radice cubica della lunghezza: mi sono figurato il problema di calcolare il volume di un gomitolo di lana come funzione della lunghezza del filo, ma non so bene cosa deve essermi passato per la testa, perchè il volume del gomitolo, così come il suo peso, è *proprio* direttamente proporzionale alla lunghezza. Insomma, una cagata pazzesca. Se invece la proporzionalità fosse con la superficie esposta e non col volume, e se potessimo approssimativamente considerare DNA come ripiegato in forma pseudosferica, allora la superficie sarebbe proporzionale alla lunghezza della catena elevata alla due terzi (alla due perchè la superficie della sfera è proporzionale al quadrato del raggio, e l’un-terzo perchè il raggio è la radice cubica del volume, che abbiamo detto essere proporzionale alla lunghezza del DNA). Ma il DNA non è una sfera e le sorgenti di mutazioni non sono solo le radiazioni ionizzanti (e su scala molecolare non ho affatto idea se l’effetto delle radiazioni sia proporzionale alla superficie della macromolecola…).

    Però mi restano tutti i dubbi sul fatto che il junk-DNA possa ridurre le probabilità di mutazioni su parti codificanti. Provo a rigirare la tua affermazione finale per farti capire il mio punto: se, data una mutazione, ho il 98,5% di probabilità che non tocchi una zona codificante (perchè il 98,5% del DNA non è codificante) allora posso anche dire che la probabilità che *ci sia* una mutazione è il 98,5% in più che se il DNA fosse costituito soltanto dalla sola parte codificante. Cioè, come dicevo, se il tasso di mutazione è proporzionale alla lunghezza del DNA, un DNA ben diluito con junk-DNA ha sì più probabilità di ricevere mutazioni nel junk-DNA, ma ha anche molta più probabilità di subire una mutazione e forse le due cose, statisticamente, si bilanciano perfettamente.

  7. Manuel’s avatar

    Sì.. a volte scrivo cose e mi dimentico di spiegarle come esone, introne e codone.. ma a quanto pare sapevi già di cosa si trattano.
    Comunque ammiro il ragionamento che hai fatto che, seppure dici che è sbagliato, dimostra come spesso è necessario comunicare i punti di vista differenti per capire meglio le cose.. io ad esempio non mi ero posto il problema se la frequenza dipendesse dalla superficie o dal volume della molecola.. tu invece sì.

    Infine, per quanto riguarda il Junk-DNA, ho capito il tuo punto di vista e ora che ci rifletto hai perfettamente ragione, non sembra esserci un vantaggio netto. Tuttavia stavo pensando, e magari dirò anche una cavolata stratosferica, al problema opposto, cioè.. se ci fosse solo quell’1.5% forse il tasso di mutazioni sarebbe troppo basso e non permetterebbe l’evoluzione. mi spiego, è vero.. se ho il 98.5 di genoma in più ho il 98.5 di possibilità in più che ci siano mutazioni, che però anche se sono nella parte non codificante possono avere un effetto magari secondario. non so.. forse sto delirando.. forse il troppo studio fa male.

  8. hronir’s avatar

    > non permetterebbe l’evoluzione

    Be’, qui apri un nuovo fronte: l’evoluzione (intesa in senso stretto come sopravvivenza differenziale in una popolazione variegata) può essere essa stessa un tratto soggetto a evoluzione? Ma non dirò niente, non ho un’idea chiara in merito…

    Aggiungo solo una considerazione/domanda tecnica: so che il tasso “reale” di mutazioni sarebbe di gran lunga (addirittura qualche ordine di grandezza?) maggiore di quello che si osserva perchè esistono meccanismi *attivi* di riconoscimento e correzione di questi errori. Che tu sappia, questi meccanismi sono capaci di agire solo sulla parte codificante del DNA o sono piuttosto generici? Altra domanda forse più interessante per la questione: questi meccanismi sono gli stessi in tutte le specie oppure specie più “evolute” hanno fatto in tempo ad evolvere più o più efficaci meccanismi? Esistono tabelle analoghe a quelle sulla densità genica che mettono a confronto il “potere correttivo” in diverse specie? E se sì, c’è una qualche correlazione con la densità genica? La cosa potrebbe rispondere, o almeno suggerire indicazioni per una risposta, alla nostra domanda sul ruolo di “parafulmine di mutazioni” del junk-DNA?

  9. Manuel’s avatar

    Quello che ho scritto è stato dettato dalla mia confusione mentale. Non avrebbe senso.. al massimo si può dire, e non è comunque corretto, che l’evoluzione non sarebbe stata così “veloce” ma è difficile parlare di velocità.. insomma.. se non l’avessi scritto sarebbe stato meglio.
    Poi.. sì, è vero tutti gli organismi hanno sviluppato una marea di meccanismi di riparazione.. una pletora di batterie enzimatiche pronte a scovare gli errori e, se è possibile, ripararli ( la stessa DNA polimerasi ha una attività di proofreading.. di correttrice di bozze). Sono quasi del tutto sicuro che possano intervenire su tutto il DNA, senza discriminazioni (non sono razzisti XD).
    Non ti so dire se gli eucarioti ne hanno di più o di meno dei procarioti (mi verrebbe da dire di più ma ovviamente è un’opinione personale) e non ti so dire se sono più o meno efficienti..So, anzi, posso ben immaginare che negli eucarioti la riparazione sia più complessa, visto che il DNA ha una organizzazione più complessa, ma non so se questo voglia dire qualcosa, oppure no. Purtroppo non ho materiale al riguardo; ma come sempre posso provare a cercarne.

  10. Alice’s avatar

    Provo a infilarmi anche se ne so meno di zero: intuitivamente mi verrebbe da pensare che abbia senso mettere più junk-dna possa diminuire le probabilità che le mutazioni danneggino dna utile. Non so se sia corretto considerare costante il tasso di mutazioni dovute a radiazioni ionizzanti, virus,etc, però se questo fattore rimane costante con l’aumento del junk-dna dovrebbe diminuire la probabilità che mutino i “pezzi utili” di dna, anche se numericamente ci saranno più mutazioni. Provando con numeri piccoli ho avuto quell’impressione, ma potrei sbagliarmi (e dovrei farlo in modo un po’ più preciso forse…).

  11. hronir’s avatar

    Se il tasso di mutazioni [dovute a radiazioni etc etc] rimane costante, allora l’aumento di junk-DNA diminuisce la probabilità di mutazioni in “pezzi utili” di DNA proprio perché *non* ci saranno più mutazioni (avevamo ipotizzato che il tasso rimane costante).
    Se invece aumentano anche le mutazioni, allora tutto sta nel capire quanto aumentano. Può essere in effetti che il tasso di mutazioni dipenda, sì, dalla lunghezza del DNA, ma forse non in modo lineare.

Reply

L'indirizzo email non verrà pubblicato. I campi obbligatori sono contrassegnati *

*

È possibile utilizzare questi tag ed attributi XHTML: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>