zondag 3 november 2019

Huismuisruis


Is er ruis in het DNA? Zijn er DNA-volgorden die op een gen lijken, met in het overgeschreven RNA het startcodon AUG en een stopcodon UGA, UAA of UAG ergens daarachter? Dus DNA- en RNA-volgorden die de volgorde van een Open Leesraam (Open Reading Frame, ORF) laten zien, maar toch geen gen zijn, geen eiwit geven of een eiwit geven dat niets doet en weer afgebroken wordt?
Het is in principe mogelijk, zoals blijkt in een volkomen willekeurig sequentie die DNA moet voorstellen.
En zulke ruis is ook te vinden in het DNA van Drosophilamelanogaster. 
Een nul-meting op ORFs doen met een zelf geconstrueerde DNA sequentie is leuk werk. Klooien met ORFs in gerapporteerde sequenties van de fruitvlieg Drosophila melanogaster is ook  leuk werk (voor iemand die met Drosophila's gewerkt heeft), maar komen Open Reading Frames (ORFs) bij andere beesten ook zo ongebreideld voor? Is het DNA bij andere beesten ook zo'n zooitje, zo rijk aan loze ORFs? Neem eens een ander laboratoriumbeest, de huismuis. Zijn er daar ook zoveel ORFs? En zo ja, wat voor ORFs?  
                                   

Wilde huismuis en laboratorium muizen
 
1                 Bij de huismuis Mus musculus blijkt het ook te wemelen van de ORFs. Onderzoekers uit Münster, namelijk promovendus Jonathan Schmitz en promotor Erich Bomberg-Bauer, lieten dat zien. Zij gebruikten niet de basevolgorde in al het DNA van de huismuis: met al het niet-overgeschreven DNA erbij werd dat wel wat erg massaal in ORFs. Schmitz en Bornberg-Bauer gebruikten de basevolgorde in het 'transcriptoom': dus de basevolgorde in al het overgeschreven RNA. DNA wordt niet continu overgeschreven, maar in een aantal delen:  een aantal 'transcripts'. Een transcript kan lang of kort zijn, en kan meer dan één gen omvatten, met intergen DNA ertussen. Je hebt dus transcript-RNA en messenger-RNA, waarbij transcript-RNA ook overgeschreven intergen-DNA bevat. Er waren RNA transcripts van de plus-streng van DNA en van de min-streng van DNA, en de DNA strengen konden apart bekeken worden voor ORFs. Om ORFs te zoeken gebruikten ze het programma GETORF dat ik ook gebruikte voor de twee eerder posts. Een ORF moest langer zijn dan 90 basen om in de studie meegenomen te worden.

Bovendien waren er ter vergelijking ook transcriptoom gegevens van vier andere soorten: rat Rattus norvegicus, de ordkangoereogoffer Dipodomys ordii (een minder verwant knaagdier, zie wikipedia, in het artikel aangegeven als kangaroo rat), de mens Homo sapiens en de huisbuidelspitsmus Monodelphis domestica (zie wikipedia, in het artikel aangegeven als opossum). Door vergelijken van de DNA sequentie kun je zien of een ORF alleen in de muis voorkomt: of in de muis en de rat maar niet in de drie andere zoogdieren, of in alle placentale zoogdieren die in de studie zitten, of in alle zoogdieren die je in handen hebt. Als een ORF een overeenkomstige DNA sequentie heeft voor al die vijf soorten, is het een hele oude ORF. De laatste gemeenschappelijke voorouder van de huismuis met de buideldieren, dus ook met de huisbuidelspitsmusi, leefde namelijk 160 miljoen jaar geleden. Een ORF kan ook alleen in de huismuis voorkomen, en dan is het een jonge ORF van de muis. Dat heet een muis-specifieke ORF.
                  
Ordkangoeroegoffer Dipodomys ordii

  

Huisbuidelspitsmuis Monodelphis domestica
 
2                 Het totaal aan ORFs bij de huismuis (van allerlei lengte zolang het maar langer was dan 90 basen) over beide strengen bleek  321 138: een orde van grootte hoger dan het aantal genen dat de huismuis heeft (dat aantal is omstreeks 25 000 genen).

Allerlei DNA wordt overgeschreven naar RNA: tussen-gen DNA, coderend DNA, intron DNA, ..., en al die klassen DNA zijn vertegenwoordigd in het RNA transcriptoom. De genen in het muizengenoom en waar ze liggen in het DNA zijn bekend, dus het is te zien waar een ORF ligt ten opzichte van een bekend gen. In figuur 1 is aangegeven welke klassen er onderscheiden zijn voor de positie van een ORF ten opzichte van bekende genen:

Positie van een ORF ten opzichte van bekende genen. Klasse 1: ORF in intergen-DAN. Klasse 2: ORF dicht bij een gen maar op de andere DNA-streng; Klasse 3 ORF dichtbij gen op zelfde DNA-streng. Klasse 4: ORF overlapt met een gen (exon of intron) maar zit op de andere DNA-streng. Klasse 5: ORF overlapt met een gen (exon of intron) van dezelfde DNA-streng. Klasse 6: ORF overlapt met coderend DNA op de andere DNA-streng. Klasse 7: ORF overlapt met coderend DNA op dezelfde DNA streng. Klasse 8: ORF overlapt met coderend DNA van een gen op dezelfde DNA-streng én volgt het leesschema van dat gen.
 
Alleen de ORFs van klasse 8 kunnen samenvallen met een bekend gen of een deel van een bekend gen. Een ORF valt samen met het eerste deel van een gen als  ATG staat voor 'start'. Een ORF kan ook door het programma GETORF opgepikt worden bij 'aminozuur methionine' ergens midden in het eiwit. Alle overige ORFs hebben niet met bekende genen te maken.
Hoeveel ORFs komen er voor per klasse?
Als eerste kunnen we kijken naar ORFs die alleen bij de huismuis voorkomen en volgens het programma BLASTP dat DNA sequenties vergelijkt niet bij de andere vier soorten: dat zijn dus de  de muis-specifieke  ORFs. Als we naar alle ORFs kijken ongeacht streng of ORF-lengte (eerste figuur hieronder), zien we dat er 321 138 ORFs zijn die alleen bij de huismuis voorkomen, en dat er daarbij drie klassen eruit springen. Veel ORFs komen voor in intergen DNA, maar ook veel ORFs worden gevonden overlappend met genen, maar in introns (klassen 4 en 5).

 
Overzicht van ORFs die alleen in de muis maar niet in de andere soorten gevonden worden
Korte ORFs zijn niet zo interessant als lange ORFs: lange ORFs zouden interessantere eiwitten kunnen geven (als ze werkelijk een eiwit geven). Kijken we allen naar de langste ORF per transcript van de plus-streng van het DNA (figuur hieronder), dan vinden we 27 032 ORFs die alleen bij de muis en niet bij de andere vier soorten voorkomen. De meeste daarvan (16 201) komen voor in intergen DNA, maar een behoorlijk aantal (6 488) komt uit introns van dezelfde streng. Er zijn maar 467 muis-specifieke ORFs van klasse 8, dus 467 ORFs die  het begin van bekende muisgenen aangeven of een middenstukje van een bekend gen oppikken. Dat is maar 1.7% van de muisspecifieke ORFs, maar 1.7% van de muisspecifiee ORFs vertegenwoordigt een bekend muizengen.

 

Aantal muis-specifieke langste ORFs per transcript, per klasse van links nar rechts, klasse 1 t/m 8: 16201, 97, 399, 6488, 647, 913, 467 ORFs. Totaal 27 032 ORFs
 
3                 ORFs komen in alle vijf soorten voor, maar niet alle ORFs van alle vijf soorten zijn bekeken. In de andere vier soorten is alleen naar die ORFs gekeken die ook bij de muis voorkomen, weer volgens programma BLASTP. Dus je bekijkt per ORF van de muis: alleen in muis? ook gevonden in rat? en ook gevonden in die kangoeroegoffer? en ook gevonden in de mens? en ook gevonden in de buidelspitsmuis? En dat voor alle plekken waar een muis-ORF gevonden wordt ten opzichte van een muizengen.
Hoe werken de figuur die hieronder staat? Een ORF wordt alleen in de muis gevonden: geturfd als muis-speci fiek. Een ORF wordt in de rat en de muis gevonden, maar niet in de andere drie soorten: geturfd bij rat, als aanwezig in de voorouder van muis en rat. Zo'n Open Reading Frame is al zeker22.6 miljoen jaar oud, de datering van de voorouder van muis en rat samen. Een ORF wordt in goffer, rat en muis gevonden, maar niet in mens en buidelmuis: geturfd bij goffer. Deze ORF is al zeker 70.4 miljoen jaar oud. Een ORF wordt in mens, goffer, rat en muis gevonden, maar niet in de buidelmuis: geturfd bij, mens. Deze ORF is al zeker 90.9 miljoen jaar oud. En als een ORF in alle vijf soorten gevonden wordt, dateert die ORF van voor de splitsing van buideldieren en placentale zoogdieren minstens 160 miljoen jaar geleden. De ORF wordt geturfd bij buidelmuis. 
 

De figuur is voor de langste ORF uit een transcript afkomstig van de plus-streng van DNA. Het valt op hoeveel muis-specifieke ORFs er wel niet zijn: er zijn in de muis veel ORFs verschenen sinds de splitsing met de rat. Die muis-specifieke ORFs worden voor het grootste deel gevonden in intergen-DNA. Dat betekent dat het om ORFs gaat die geen gen aanduiden, want het muizengenoom heeft daar geen gen. De ORFs die in alle vijf soorten gevonden worden, en geturfd staan onder de buidelmuis, komen voornamelijk uit coderend muis-DNA, waarbij de ORF zelfs overeenkomt met hoe het muis-DNA gelezen wordt. Hier heeft het programma GETORF vooral het begin van een muizengen opgepakt als Open Reading Frame in alle vijf soorten. Een ORF bij wat heet een 'geannoteerd' muizengen, dus een gen dat door de screening voor 'echte genen' gekomen. Er zijn 22 469  ORFs van klasse 8, coderend DNA, geturfd als aanwezig bij alle vijf soorten, terwijl het totaal aantal ORFs dat bij alle vijf soorten voorkomt gelijk is aan 28566. Dat betekent dat  22469/28566 = 79% van de ORFs die in alle vijf soorten gevonden worden een bekend muizengen vertegenwoordigen. (Vergelijk met die 1.7% van de muisspecifieke ORFs).  En dat houdt in dat heel veel genen bij de zoogdieren een lange historie achter de rug hebben – minstens vanaf het ontstaan van de zoogdieren en veelal vanaf het ontstaan van de dieren. En het betekent ook dat zoogdieren behoorlijk overeenkomen in hun genen. Van de omstreeks 25 000 genen van de muis worden er hier 22 469 als klasse 8 ORFs van in alle vijf soorten gevonden.
 
4                 Zoals gezegd komen er 22 469 klasse 8 ORFs in alle vijf soorten voor: daar zullen genen bijzitten die alle zoogdieren en misschien alle gewervelde dieren of alle dieren zullen hebben. Er zijn 752 klasse 8 ORFs die specifiek behoren tot de placentale zoogdieren: die er bij gekomen zijn vanaf de gezamenlijke voorouder van de buideldieren en de placentale zoogdieren. Dan ziijn er 12 knaagdier specifieke klasse 8 ORFs en 315 klasse 8 ORFs, die muis en rat samen hebben, die specifiek zijn voor de muizenfamilie Muridae. En 467 klasse 8 ORFs die alleen in de muis voorkomen: met de mogelijkheid van 467 muis-specifieke genen, dus jonge, nieuwe genen.
( Er is alleen geturfd voor ORFs die in de muis voorkomen, en van daaruit is vergeleken. Dus verdwijnen van ORFs kan zo niet geturfd worden.)


 5                 Valt er wat meer over de muisspecifieke ORFs te zeggen? Zijn ze vergelijkbaar met niet-muisspecifieke ORFs?
Er zijn verschillen, in lengte en in DNA samenstelling. Muisspecifieke ORFs zijn gemiddeld korter dan andere ORFs, en vooral veel korter dan ORFs die ook in de buidelmuis voorkomen.
Lengte van ORFs van muisspecifiek tot in alle vijf soorten voorkomend.
Verder verschillen de muisspecifieke ORFs in DNA samenstelling van ORFs die in andere soorten terugkomen. De DNA samenstelling wordt weergegeven met 'hexamer score', een statistische maat die iets zegt over welke zes basen in een stuk DNA naast elkaar gevonden worden. Zes basen betekent twee aminozuren, en een hexameer score vertelt je iets over welke aminozuren graag naaste elkaar zitten in een eiwit. In een eiwit zitten niet alle aminozuren gelukkig naast elkaar: sommige aminozuren passen niet goed samen, bijvoorbeeld twee aminozuren met elk een vrij lange zijketen. DNA dat voor eiwit codeert heeft daarom een wat andere inhoud aan A, C, T en G dan niet coderend DNA. Muis-specifieke ORFs hebben vooral de hexameersignatuur van niet-coderend DNA. Maar omdat ze voornamelijk in niet-coderend DNA gevonden worden is dat ook niet verbazend.





 6                 Moraal:
-  Er zijn heel veel Open Reading Frames bij de muis die geen gen aangeven.

-  De muis-specifieke, dus jonge, Open Reading Frames komen vooral voor in niet-coderend intergen-DNA.
-  Open Reading Frames van de muis die een gen aangeven worden voor zo'n 90% in alle bekeken zoogdieren gevonden.

**************

Schmitz, J.F., K.K. Ullrich en E. Bornberg-Bauer, 2018. Incipient de novo genes can evolve from frozen accidents that escaped rapid transcript turnover. Nature Ecology & Evolution 2: 1626-1632.
https://nl.wikipedia.org/wiki/Open_leesraam
https://en.wikipedia.org/wiki/Open_reading_frame
https://nl.wikipedia.org/wiki/Ordkangoeroegoffer              kangaroo rat
https://nl.wikipedia.org/wiki/Huisbuidelspitsmuis               foto Dawson                  opossum

1 opmerking:

  1. Gerdien, dank voor dit blog. Dit roept een aantal vragen op.
    Zijn alle data van die 5 soorten uitsluitend gebaseerd op het transcriptoom?
    Als ORFs heel oud zijn (en ongewijzigd), is dat een bewijs dat ze functioneel zijn, en enig selectief voordeel opleveren? Als ORFs evolutionair recent zijn kan ik begrijpen dat ze (nog) niet functioneel zijn. Maar als ORFs miljoenen jaren gehandhaafd worden, moeten ze toch nut hebben, anders waren ze wel weg gemuteerd tot random DNA.
    Is er bewijs dat random ORFs functionele genen zijn geworden? dus: is dit een mechanisme om eiwit-coderende of RNA genen te produceren?
    Is er rekening mee gehouden dat er RNA genen (niet voor eiwit coderend) zijn?
    Hartelijk dank.

    BeantwoordenVerwijderen