zondag 3 november 2019

Huismuisruis


Is er ruis in het DNA? Zijn er DNA-volgorden die op een gen lijken, met in het overgeschreven RNA het startcodon AUG en een stopcodon UGA, UAA of UAG ergens daarachter? Dus DNA- en RNA-volgorden die de volgorde van een Open Leesraam (Open Reading Frame, ORF) laten zien, maar toch geen gen zijn, geen eiwit geven of een eiwit geven dat niets doet en weer afgebroken wordt?
Het is in principe mogelijk, zoals blijkt in een volkomen willekeurig sequentie die DNA moet voorstellen.
En zulke ruis is ook te vinden in het DNA van Drosophilamelanogaster. 
Een nul-meting op ORFs doen met een zelf geconstrueerde DNA sequentie is leuk werk. Klooien met ORFs in gerapporteerde sequenties van de fruitvlieg Drosophila melanogaster is ook  leuk werk (voor iemand die met Drosophila's gewerkt heeft), maar komen Open Reading Frames (ORFs) bij andere beesten ook zo ongebreideld voor? Is het DNA bij andere beesten ook zo'n zooitje, zo rijk aan loze ORFs? Neem eens een ander laboratoriumbeest, de huismuis. Zijn er daar ook zoveel ORFs? En zo ja, wat voor ORFs?  
                                   

Wilde huismuis en laboratorium muizen
 
1                 Bij de huismuis Mus musculus blijkt het ook te wemelen van de ORFs. Onderzoekers uit Münster, namelijk promovendus Jonathan Schmitz en promotor Erich Bomberg-Bauer, lieten dat zien. Zij gebruikten niet de basevolgorde in al het DNA van de huismuis: met al het niet-overgeschreven DNA erbij werd dat wel wat erg massaal in ORFs. Schmitz en Bornberg-Bauer gebruikten de basevolgorde in het 'transcriptoom': dus de basevolgorde in al het overgeschreven RNA. DNA wordt niet continu overgeschreven, maar in een aantal delen:  een aantal 'transcripts'. Een transcript kan lang of kort zijn, en kan meer dan één gen omvatten, met intergen DNA ertussen. Je hebt dus transcript-RNA en messenger-RNA, waarbij transcript-RNA ook overgeschreven intergen-DNA bevat. Er waren RNA transcripts van de plus-streng van DNA en van de min-streng van DNA, en de DNA strengen konden apart bekeken worden voor ORFs. Om ORFs te zoeken gebruikten ze het programma GETORF dat ik ook gebruikte voor de twee eerder posts. Een ORF moest langer zijn dan 90 basen om in de studie meegenomen te worden.

Bovendien waren er ter vergelijking ook transcriptoom gegevens van vier andere soorten: rat Rattus norvegicus, de ordkangoereogoffer Dipodomys ordii (een minder verwant knaagdier, zie wikipedia, in het artikel aangegeven als kangaroo rat), de mens Homo sapiens en de huisbuidelspitsmus Monodelphis domestica (zie wikipedia, in het artikel aangegeven als opossum). Door vergelijken van de DNA sequentie kun je zien of een ORF alleen in de muis voorkomt: of in de muis en de rat maar niet in de drie andere zoogdieren, of in alle placentale zoogdieren die in de studie zitten, of in alle zoogdieren die je in handen hebt. Als een ORF een overeenkomstige DNA sequentie heeft voor al die vijf soorten, is het een hele oude ORF. De laatste gemeenschappelijke voorouder van de huismuis met de buideldieren, dus ook met de huisbuidelspitsmusi, leefde namelijk 160 miljoen jaar geleden. Een ORF kan ook alleen in de huismuis voorkomen, en dan is het een jonge ORF van de muis. Dat heet een muis-specifieke ORF.
                  
Ordkangoeroegoffer Dipodomys ordii

  

Huisbuidelspitsmuis Monodelphis domestica
 
2                 Het totaal aan ORFs bij de huismuis (van allerlei lengte zolang het maar langer was dan 90 basen) over beide strengen bleek  321 138: een orde van grootte hoger dan het aantal genen dat de huismuis heeft (dat aantal is omstreeks 25 000 genen).

Allerlei DNA wordt overgeschreven naar RNA: tussen-gen DNA, coderend DNA, intron DNA, ..., en al die klassen DNA zijn vertegenwoordigd in het RNA transcriptoom. De genen in het muizengenoom en waar ze liggen in het DNA zijn bekend, dus het is te zien waar een ORF ligt ten opzichte van een bekend gen. In figuur 1 is aangegeven welke klassen er onderscheiden zijn voor de positie van een ORF ten opzichte van bekende genen:

Positie van een ORF ten opzichte van bekende genen. Klasse 1: ORF in intergen-DAN. Klasse 2: ORF dicht bij een gen maar op de andere DNA-streng; Klasse 3 ORF dichtbij gen op zelfde DNA-streng. Klasse 4: ORF overlapt met een gen (exon of intron) maar zit op de andere DNA-streng. Klasse 5: ORF overlapt met een gen (exon of intron) van dezelfde DNA-streng. Klasse 6: ORF overlapt met coderend DNA op de andere DNA-streng. Klasse 7: ORF overlapt met coderend DNA op dezelfde DNA streng. Klasse 8: ORF overlapt met coderend DNA van een gen op dezelfde DNA-streng én volgt het leesschema van dat gen.
 
Alleen de ORFs van klasse 8 kunnen samenvallen met een bekend gen of een deel van een bekend gen. Een ORF valt samen met het eerste deel van een gen als  ATG staat voor 'start'. Een ORF kan ook door het programma GETORF opgepikt worden bij 'aminozuur methionine' ergens midden in het eiwit. Alle overige ORFs hebben niet met bekende genen te maken.
Hoeveel ORFs komen er voor per klasse?
Als eerste kunnen we kijken naar ORFs die alleen bij de huismuis voorkomen en volgens het programma BLASTP dat DNA sequenties vergelijkt niet bij de andere vier soorten: dat zijn dus de  de muis-specifieke  ORFs. Als we naar alle ORFs kijken ongeacht streng of ORF-lengte (eerste figuur hieronder), zien we dat er 321 138 ORFs zijn die alleen bij de huismuis voorkomen, en dat er daarbij drie klassen eruit springen. Veel ORFs komen voor in intergen DNA, maar ook veel ORFs worden gevonden overlappend met genen, maar in introns (klassen 4 en 5).

 
Overzicht van ORFs die alleen in de muis maar niet in de andere soorten gevonden worden
Korte ORFs zijn niet zo interessant als lange ORFs: lange ORFs zouden interessantere eiwitten kunnen geven (als ze werkelijk een eiwit geven). Kijken we allen naar de langste ORF per transcript van de plus-streng van het DNA (figuur hieronder), dan vinden we 27 032 ORFs die alleen bij de muis en niet bij de andere vier soorten voorkomen. De meeste daarvan (16 201) komen voor in intergen DNA, maar een behoorlijk aantal (6 488) komt uit introns van dezelfde streng. Er zijn maar 467 muis-specifieke ORFs van klasse 8, dus 467 ORFs die  het begin van bekende muisgenen aangeven of een middenstukje van een bekend gen oppikken. Dat is maar 1.7% van de muisspecifieke ORFs, maar 1.7% van de muisspecifiee ORFs vertegenwoordigt een bekend muizengen.

 

Aantal muis-specifieke langste ORFs per transcript, per klasse van links nar rechts, klasse 1 t/m 8: 16201, 97, 399, 6488, 647, 913, 467 ORFs. Totaal 27 032 ORFs
 
3                 ORFs komen in alle vijf soorten voor, maar niet alle ORFs van alle vijf soorten zijn bekeken. In de andere vier soorten is alleen naar die ORFs gekeken die ook bij de muis voorkomen, weer volgens programma BLASTP. Dus je bekijkt per ORF van de muis: alleen in muis? ook gevonden in rat? en ook gevonden in die kangoeroegoffer? en ook gevonden in de mens? en ook gevonden in de buidelspitsmuis? En dat voor alle plekken waar een muis-ORF gevonden wordt ten opzichte van een muizengen.
Hoe werken de figuur die hieronder staat? Een ORF wordt alleen in de muis gevonden: geturfd als muis-speci fiek. Een ORF wordt in de rat en de muis gevonden, maar niet in de andere drie soorten: geturfd bij rat, als aanwezig in de voorouder van muis en rat. Zo'n Open Reading Frame is al zeker22.6 miljoen jaar oud, de datering van de voorouder van muis en rat samen. Een ORF wordt in goffer, rat en muis gevonden, maar niet in mens en buidelmuis: geturfd bij goffer. Deze ORF is al zeker 70.4 miljoen jaar oud. Een ORF wordt in mens, goffer, rat en muis gevonden, maar niet in de buidelmuis: geturfd bij, mens. Deze ORF is al zeker 90.9 miljoen jaar oud. En als een ORF in alle vijf soorten gevonden wordt, dateert die ORF van voor de splitsing van buideldieren en placentale zoogdieren minstens 160 miljoen jaar geleden. De ORF wordt geturfd bij buidelmuis. 
 

De figuur is voor de langste ORF uit een transcript afkomstig van de plus-streng van DNA. Het valt op hoeveel muis-specifieke ORFs er wel niet zijn: er zijn in de muis veel ORFs verschenen sinds de splitsing met de rat. Die muis-specifieke ORFs worden voor het grootste deel gevonden in intergen-DNA. Dat betekent dat het om ORFs gaat die geen gen aanduiden, want het muizengenoom heeft daar geen gen. De ORFs die in alle vijf soorten gevonden worden, en geturfd staan onder de buidelmuis, komen voornamelijk uit coderend muis-DNA, waarbij de ORF zelfs overeenkomt met hoe het muis-DNA gelezen wordt. Hier heeft het programma GETORF vooral het begin van een muizengen opgepakt als Open Reading Frame in alle vijf soorten. Een ORF bij wat heet een 'geannoteerd' muizengen, dus een gen dat door de screening voor 'echte genen' gekomen. Er zijn 22 469  ORFs van klasse 8, coderend DNA, geturfd als aanwezig bij alle vijf soorten, terwijl het totaal aantal ORFs dat bij alle vijf soorten voorkomt gelijk is aan 28566. Dat betekent dat  22469/28566 = 79% van de ORFs die in alle vijf soorten gevonden worden een bekend muizengen vertegenwoordigen. (Vergelijk met die 1.7% van de muisspecifieke ORFs).  En dat houdt in dat heel veel genen bij de zoogdieren een lange historie achter de rug hebben – minstens vanaf het ontstaan van de zoogdieren en veelal vanaf het ontstaan van de dieren. En het betekent ook dat zoogdieren behoorlijk overeenkomen in hun genen. Van de omstreeks 25 000 genen van de muis worden er hier 22 469 als klasse 8 ORFs van in alle vijf soorten gevonden.
 
4                 Zoals gezegd komen er 22 469 klasse 8 ORFs in alle vijf soorten voor: daar zullen genen bijzitten die alle zoogdieren en misschien alle gewervelde dieren of alle dieren zullen hebben. Er zijn 752 klasse 8 ORFs die specifiek behoren tot de placentale zoogdieren: die er bij gekomen zijn vanaf de gezamenlijke voorouder van de buideldieren en de placentale zoogdieren. Dan ziijn er 12 knaagdier specifieke klasse 8 ORFs en 315 klasse 8 ORFs, die muis en rat samen hebben, die specifiek zijn voor de muizenfamilie Muridae. En 467 klasse 8 ORFs die alleen in de muis voorkomen: met de mogelijkheid van 467 muis-specifieke genen, dus jonge, nieuwe genen.
( Er is alleen geturfd voor ORFs die in de muis voorkomen, en van daaruit is vergeleken. Dus verdwijnen van ORFs kan zo niet geturfd worden.)


 5                 Valt er wat meer over de muisspecifieke ORFs te zeggen? Zijn ze vergelijkbaar met niet-muisspecifieke ORFs?
Er zijn verschillen, in lengte en in DNA samenstelling. Muisspecifieke ORFs zijn gemiddeld korter dan andere ORFs, en vooral veel korter dan ORFs die ook in de buidelmuis voorkomen.
Lengte van ORFs van muisspecifiek tot in alle vijf soorten voorkomend.
Verder verschillen de muisspecifieke ORFs in DNA samenstelling van ORFs die in andere soorten terugkomen. De DNA samenstelling wordt weergegeven met 'hexamer score', een statistische maat die iets zegt over welke zes basen in een stuk DNA naast elkaar gevonden worden. Zes basen betekent twee aminozuren, en een hexameer score vertelt je iets over welke aminozuren graag naaste elkaar zitten in een eiwit. In een eiwit zitten niet alle aminozuren gelukkig naast elkaar: sommige aminozuren passen niet goed samen, bijvoorbeeld twee aminozuren met elk een vrij lange zijketen. DNA dat voor eiwit codeert heeft daarom een wat andere inhoud aan A, C, T en G dan niet coderend DNA. Muis-specifieke ORFs hebben vooral de hexameersignatuur van niet-coderend DNA. Maar omdat ze voornamelijk in niet-coderend DNA gevonden worden is dat ook niet verbazend.





 6                 Moraal:
-  Er zijn heel veel Open Reading Frames bij de muis die geen gen aangeven.

-  De muis-specifieke, dus jonge, Open Reading Frames komen vooral voor in niet-coderend intergen-DNA.
-  Open Reading Frames van de muis die een gen aangeven worden voor zo'n 90% in alle bekeken zoogdieren gevonden.

**************

Schmitz, J.F., K.K. Ullrich en E. Bornberg-Bauer, 2018. Incipient de novo genes can evolve from frozen accidents that escaped rapid transcript turnover. Nature Ecology & Evolution 2: 1626-1632.
https://nl.wikipedia.org/wiki/Open_leesraam
https://en.wikipedia.org/wiki/Open_reading_frame
https://nl.wikipedia.org/wiki/Ordkangoeroegoffer              kangaroo rat
https://nl.wikipedia.org/wiki/Huisbuidelspitsmuis               foto Dawson                  opossum

maandag 17 juni 2019

Open Leesramen in Drosophila melanogaster DNA


Open Leesramen (Open Reading Frames, ORFs) kwamen dus (zie vorige) met gemak voor in een volledig toevallige DNA sequentie, en konden ook nog overgeschreven worden naar RNA, en konden soms ook nog vertaald worden in redelijk uitziend eiwit.

Open Leesraam: ergens in de DNA sequentie staat een startcodon ATG, en een aantal drietallen basen later een stopcodon TGA, TAA of TAG.
Nu ja, dat was voor eigen gemaakte DNA sequenties.

De volgende stap is naar een bestaande DNA-sequentie te kijken, en te bezien wat dat oplevert aan ORFs, volgens de programma's die ORFs zoeken tenminste.

Dus eerst iets over die gekozen bestaande sequentie, en wat daar in zit. Daarna over wat ORFFINDER en GETORF er van maken.
**
 1          Ik heb naar Drosophila melanogaster DNA gekeken, om de eenvoudige reden dat ik nog redelijk weet om te gaan met de website FLYBASE. FLYBASE geeft DNA sequenties, en genen, met annotatie.

Welke DNA sequentie geeft FLYBASE? DNA heeft twee strengen, de + en de – streng. De conventie is dat de + streng dezelfde base volgorde heeft als het bijbehorende RNA; behalve dat RNA de base U heeft waar DNA de base T heeft. De basevolgorde in de + streng wordt altijd opgegeven op papier en op internet, dus op FLYBASE en alle andere programmas en overzichten. Een gen ligt op de + streng of op de – streng.

Voor de + streng lees je van links naar rechts, en voor de – streng lees je van rechts naar links. Het startcodon ATG van een gen op de + streng staat dan als ATG op de opgegeven DNA volgorde; het startcodon ATG van een gen op de – streng staat als CAT in de opgegeven + streng. ATG / CAT kan ook midden in een coderend stuk DNA staan, en wordt dan vertaald als aminozuur methionine.

Mijn keuze van een gedeelte uit het Drosophila melanogaster DNA om eens naar te kijken is gevallen op de omgeving van vier genen voor Insulin-like protein: Ilp1, Ilp2, Ilp3, Ilp4. Die vier genen zijn alle vier vrij klein, van 360 tot 462 basen, en liggen dicht bij elkaar op deze volgorde op chromosoom 3, linkerarm. FLYBASE wil wel het DNA uit de omgeving van die vier genen opgeven.

Het handigste is dan om te beginnen met gen CG32052, een officiëel en lang gen met een aantal exons en introns. lp2, Ilp3 en !lp4 liggen in een intron van CG32052; Ilp1 en Ilp2 liggen op de + streng, Ilp3 en Ilp4 liggen op de – streng; dat is te zien aan de richting van het pijltje. Gen Zasp67 ligt op de – streng, in een stuk niet-vertaald RNA dat bij gen CG32052 schijnt te horen. Gen CG8177 ligt voor gen CG32052 op de + streng.

Zo ziet Drosophila DNA eruit: bovenaan een schema van het gekozen deel de basenummers 9780000 en 9811000; midden bij Transcript overgescheven DNA op de streep, met aangegeven wat bruikbaar RNA is; onderbij CDS wat vertaald wordt in eiwit – bij de lange genen met varianten.
Voor de DNA sequentie tussen de basenummers 9780000 en 9811000 staat in de figuur opgegeven wat er bekend is. De weergave lijkt op stukjes draad met kralen.  Er staat welke genen bekend zijn in schema, welke basen overgeschreven worden naar RNA (transcript) als de draad en welke basen vanuit RNA weer omgezet worden in eiwit (CDS, coding sequence), als de kralen. De lange genen CG32052, Zasp67 en CG8177 geven eiwitvarianten. FLYBASE is nogal onduidelijk over wat de eiwitten van deze genen eigenlijk doen, terwijl de functie van de Ilp genen duidelijk is: insuline-achtig, van alles met stofwisseling en groei.

FLYBASE geeft DNA sequenties met kleurcodes zodat je kunt zien of het om tussen-gen DNA, in RNA overgeschreven DNA of naar eiwit vertaald DNA gaat. Voor gen CG32052 geeft FLYBASE basen genummerd 9787046 tot en met 9808713, vanaf de eerste base die overgeschreven wordt tot en met de laatste base die overgeschreven wordt. Voor het zoeken naar ORFs heb ik ook maar even 5000 basen aan beide kanten opgepikt. Voor base 9787046 zit een stukje intergen-DNA, en weer daarvoor een deel van gen CG8177. Na base 9808713 zijn alle 5000 basen als intergen aangemerkt. In totaal gaat het om basen 9782046 tot en met 9813713 in de werkfile.

Voor het zoeken naar open leesramen is er dan intergen DNA, overgeschreven maar onvertaald DNA, intron en exon DNA gegeven.
**
2          Wat krijg je op dat stuk Drosophila melanogaster DNA aan open leesramen, als je er GETORF en ORFFINDER op loslaat?

De programma's GETORF en ORFFINDER geven allebei 260 ORF's van tenminste 75 basen (tenminste 25 aminozuren) lang voor de werkfile, gelukkig ook nog met dezelfde nummers van begin-base en eind-base. ORFFINDER geeft de posities van ORFs in de DNA-sequentie, GETORF geeft bovendien naar gewenst de basesequentie per ORF van start-codon tot stop-codon of de vertaling daarvan in aminozuren.

De verdeling van open leesramen, ORFs, over basen 9782046 tot en met 9813713. De x-as geeft de positie; lange ORFs zijn hoger geplaatst dan korte ORFs, verder heeft de y-as geen betekenis. De rode ovaaltjes geven van links naar rechts de gevonden ORFs voor Ilp1, Ilp2, Ilp3 en Ilp4, het blauwe ovaaltje geeft de plaats van het eerste exon van gen CG32052 (ORF 59); het groene ovaaltje geeft de plaats van het eeste exon van Zasp67 (ORF243)
 
**
3          Wat stellen de gevonden open leesramen voor?

De eerste vraag is of we de vier Ilp-genen en naastliggende genen terugvinden. Dat doen ORFFINDER en GETORF: de posities van de ilp-genen zijn aangegeven en ze liggen netje van links naar rechts.

Open leesraam 105 geeft de DNA sequentie en aminozuurvolgorde van het gen Ilp1, Insulin-like protein 1. Hier komt het opgegeven open leesraam overeen met het gen als in FLYBASE.

Voor beide programma's, GETORF en ORFFINDER, geldt dat ze geen introns herkennen. Ilp2, Ilp3 en Ilp4 hebben een intron, en geven als gevonden open leesraam het eerste exon en een stukje intron tot een stop-codon verschijnt. Het is goed te zien aan de basevolgorde en aminozuurvolgorde die GETORF opgeeft. Het gevonden open leesraam geeft dus niet per definitie een gen, zelfs niet als het open leesraam coderend DNA oppikt.

Verder staan ORF212, ORF194, ORF30, ORF12, ORF69 en vooral ORF2 als lange ORFs aangegeven. Welke genen zouden dat zijn? Herkent het programa BLAST die aminozuurvolgorde als een bestaand eiwit?

ORF naam
Aantal aminozuren
Plaatsing ongeveer
Leesrichting
BLAST resultaat
 
 
 
orf
gen
 
ORF2
563
CG8177
+
+
CG8177, aa 541
ORF212
214
CG8177
-
+
geen
ORF194
197
Zasp67
-
-
Zasp67, aa 84
ORF30
176
CG32052
+
+
CG32052, aa 82
ORF105
154
Ilp1
+
+
Ilp1
ORF12
143
Zasp67
+
-
geen
ORF69
143
CG32052
+
+
CG32052, aa 420

 Vier lange ORF's pikken een methionine-codon op ergens midden in een coderend deel van de DNA sequentie; de plaats van dit methionine in het eiwit dat officieel bij een van de genen hoort staat aangegeven. Twee lange ORFs pikken een 'startcodon' van de verkeerde streng, maar wel netjes ergens in een coderend stuk DNA. Dat wordt verkeerd vertaald, en levert een vertaling naar een onbekend eiwit op.
 
**
4          Komen ORFs ook uit overgeschreven maar niet voor eiwit coderende stukken DNA?

Ja, ORF's worden ook gevonden in overgeschreven niet-coderend DNA.

Base 9782046 tot en met 9786467, en base 9787046 tot en met 9808713 worden overgeschreven van DNA in RNA. Dat zijn de basen 1 t/m 4420 en 5000 t/m 26667 van de werkfile. Coderend DNA zit verspreid door dit gebied, zodat het wat lastig is om te zien of een open leesraam in zijn geheel in niet-coderend RNA gevonden wordt.

Een relatief lang stuk 'gene span' xxxxxx, opgegeven als niet coderend, is van base 12717 tot en met 15382 in de werkfile. In dit deel van de sequentie worden 22 ORFs gevonden.

Basen 3271 tot en met 4421 van de werkfile worden opgegeven als Untranslated Region XXXXXX; in deze 1150 basen worden 4 ORFs gevonden, van 43, 31, 25 en en ORF205 van 65 aminozuren lang. Voor ORF205 ziet er zo uit, in de één-letter code voor aminozuren:  MYKYNVFVLVFCVFFFLLFFNILTTSTKKANLQRPLQTRSIYFKRKLRLKCLKRFFCYKQLFVRS

**
5          Komen ORFs ook uit niet-overgeschreven stukken DNA?

Zeker. In de werkfile zijn base 4421 tot 5000, en base 26667 tot en met 31667 afkomstig van DNA dat door FLYBASE is aangemerkt als intergenic. In deze laatste 5000 basen van de werkfile vinden GETORF en ORFFinder 45 open leesramen. Voor elk van die open leesramen wordt een aminozuursequentie opgegeven. De langste aminozuursequentie die GETORF geeft voor dit stuk niet-overgeschreven DNA komt op 133 aminozuren. Voor ORF166, de langste, ziet er zo uit, in de één-letter code voor aminozuren: MFLNIFYQLSNDEYLIVGELVYVILSSCSFHLLIFLEILFCHQEQRPHDRQNQQLSAVILLCPAISQVHVLSMRSSTTISAFSVCSRHCSPVHRPPVPPANPPPPPNIPSLLRLSAKFNPCTKSSAAEHLTGN

Geen overeenkomend eiwit gevonden met BLAST: zo'n eiwit is dus nergens (nog) gevonden.

Gemiste kans voor transcriptie! Zet er een transcriptiebox voor, en je weet maar nooit. 

**
6          Leiden die gevonden open leesramen tot zinnig eiwit?

Er zijn 260 open leesramen gevonden, dus dat wordt een keuze maken om uit te proberen hoe een eiwit eruit zal zien. Het programma PHYRE2 zoekt door bekende vouwingen van eiwitten of er een vouwing bij deze aminozuurvolgorde hoort.
Gen Ilp1 eerst maar. Met alle 154 aminozuren zou het eiwit zou er ongeveer zo uit kunnen zien, eerste mogelijkheid volgens PHYRE2. PHYRE2 herkent  de aminozuurvolgorde als iets met insuline.

Nu is het eiwit met 154 aminozuren een preproinsuline. Het signaalpeptide aan de voorkant moet er nog af, dan heb je proinsuline. Daarna een stukje midden uit het eiwit knippen, dan heb je insuline. Hoe groot die eiwitketens van de onderdelen zijn kun je vinden op UNIPROT. PHYRE2 geeft voor de werkzame A- en B-ketens deze vorm voor een eiwit, met score 100%: 

Vergelijk deze vorm voor Drosophila insuline-achtig peptide 1 met een gepubliceerde vorm voor menselijk insuline:
PHYRE2 doet het niet al te gek. Toch maar PHYRE2 gebruiken om te zien of er iets van een driedimensionaal eiwit van de  aminozuurvolgordes van meer willekeurige ORFs te maken valt.

ORF 205 zit in het UnTranslated Region DNA vlak na het einde van CG8177. Voordeze  ORF205 van 65 aminozuren lang heb ik met PHYRE2 geprobeerd een driedimensionale structuur te vinden. Dertig van de 65 aminozuren leveren iets op, nummer 9-38. Maar PHYRE2 is niet erg tevreden, lage score.
Ook voor open leesramen uit het 'intergenic DNA' heb ik de langste gekozen om wat verder te bekijken. Dat is ORF166.  Het middendeel van de aminozuurvolgorde van open leesraam ORF166 geeft volgens PHYRE2 slecht gevouwen eiwit. Deze leek de beste, nog steeds met een lage score.

Al met al, het lijkt moeilijk om een net gevouwen eiwit uit zomaar een ORF te krijgen (op grond van deze extreem kleine steekproef).
 
***
7          Moraal: 

- veel open leesramen (ORF's) ontstaan ook volgens toeval, als ruis.

- veel zeldzamer is dat een open leesraam ruis is en ook nog tot een redelijk eiwit leidt.

 
***********







 

zondag 26 mei 2019

Ruis, rommel


Troep. Zootje ongeregeld. Rommel maar wat aan. Dat is wat een cel met DNA en zo doet. Terwijl het op school lijkt alsof al die genetische biochemie zo precies geregeld is. Nou nee.

Op de middelbare school wordt geleerd: DNA geeft RNA geeft eiwit. DNA geeft RNA heet transcriptie, RNA geeft eiwit heet translatie. DNA heeft de basen A, C, G, T en RNA heeft de basen A, C, G, U. Base G paart met base C en base A paart met base T (of base U). Verder is het eigenlijk niet nodig iets van die basen te weten, alleen dat paren is echt van belang. En natuurlijk dat eeen drietal basen een code is voor een aminozuur, of 'start' of 'stop'.

Hoeveel transciptie van het DNA is er, hoeveel translatie? Hoeveel transcriptie / translatie is ruis?

 1          Indeling van het DNA

Het hangt van de soort af hoeveel DNA ook eiwit-betekenis heeft. Bij de mens wordt iets als 2% van het DNA in eiwit omgezet. Verder is er DNA dat op een of andere manier iets met met genregeling te maken heeft; eiwit-coderend en regulerend samen iets als 6% van het DNA. De overige 82% (bij de mens) is restjes virus, restjes transposons, herhalende stukken als een paar duizend keer de basen AC, en in functionerende genen de introns tussen de voor eiwit coderende delen. Er wordt dus weinig DNA in eiwit omgezet : heel weinig. Hoeveel transcriptie is er? Veel meer.

 
2          Transscriptie

Transcriptie begint als RNA-polymerase ergens aan het DNA bindt, en daar heeft het RNA-polymerase een herkenningssequentie voor nodig. Transcriptie kan op minstens drie varianten van het DNA beginnen, steeds met een reeksje basen. Voorbeelden van plekken voor begin van transcriptie zijn TATAWAW en RGWYV(T) en YYANWYY (hier is W: A of T; R: A of G; Y: C of T; V: A of C of G; N: A of C of G of T). Dat geeft nogal wat mogelijkheden. Soms heeft een gen meer dan één plaats hebben waar transcriptie kan beginnen,maar in de meeste gevallen is er één goed begin voor transcriptie maar kan het RNA-polymerase er ook naast zitten omdat er tig basen verderop ook wel een sequentie van zeven basen op een beginplek lijkt. En meest belangrijk, er zijn mogelijkheden te over voor RNA-polymerase om aan DNA te binden zonder dat die plek ook netjes naast een gen ligt.

In al die restjes virus en restjes transposons zijn er heel veel  plaatsen met zes of zeven basen naast elkaar die op een beginsequentie voor transcriptie lijken. Dat krijgje zo met een paar miljard basen op toevalsvolgorde. De kans op een basevolgorde die tot het begin van transciptie leidt is weliswaar (1/4)7= 0.0000610352, maar vermenigvuldigd met 2 miljard is dat toch naar verwachting meer dan honderdduizend mogelijk plekken voor transcriptiebegin, door toeval alleen. Rommel DNA op toevalsvolgorde wordt rustig in RNA omgezet. Dan heb je loos RNA dat weer afgebroken wordt. Er zijn studies die zeggen dat misschien 80% van het DNA wel eens wordt overgeschreven in RNA. Terwijl maar 8% van het DNA zinnig RNA geeft. Dus 70% van al het DNA leidt tot loos RNA, en van alle overschrijving van DNA tot RNA is 7/8 loos. Dat wordt dan weer afgebroken.

Nu doet dit er niet veel toe: elk molecuul loos RNA komt misschien eens in de zoveel keer in één exemplaar in een cel voor. Nuttig RNA dat regelt of tot eiwit leidt komt in grote hoeveelheden van elk molecuul in een cel voor.

Transcriptie levert dus heel veel ruis op.


3          Translatie, Open Reading Frames

Translatie lijkt veel stricter op het eerste oog. Translatie van RNA in eiwit begint bij een startcodon AUG en eindigt bij een stopcodon UGA, UAA of UAG. Bij nuttig RNA gaan er een aantal basen aan dat startcodon vooraf, maar niet erg veel: 20. 30, of zo. Bij loos RNA is er geen enkele garantie dat er een startcodon voor translatie op redelijke afstand van het RNA-begin te vinden is. Dan geeft de translatiemachine, het ribosoom, het op.

Aan de andere kant, een toevallig begin voor transcriptie TATAWAW met een een ATG in het DNA op een nette afstand is best mogelijk als er alleen ruis is. Het is niet verboden. Ook is het dan mogelijk dat pas vele drietallen basen na het startcodon een stopcodon optreedt. Dan heb je door toeval alleen een Open Reading Frame, een Open Leesraam ORF) dat een mogelijk gen is.

Komt dat vaak voor? O ja.

Ik gebruikte EXCEL voor het genereren van een toevalssequentie van DNA van 50 000 basen lang, met de vier basen A, C, G, T op toevalsvolgorde. Het programma OrfFinder van de website https://www.ncbi.nlm.nih.gov/orffinder/ zoekt ORFs, en heeft 50000 basen als maximumgrens voor de invoer. Hoeveel ORFs beginnnend met ATG zijn er in een toevalssequentie van vijftigduizend basen lang?

 In OrfFinder kun je instellen hoe groot het ORF moet zijn. Dan krijg je dit:

Lengte base-sequentie
Lengte eiwit
Gevonden aantal ORFs
> 30
10
764
> 75
25
365
> 150
50
103
> 300
100
9
> 600
200
0

 Vanuit het gevonden aantal ORFs kun je een voorspelling maken voor het aantal ORFs dat gevonden wordt in bv een miljard random basen in een genoom. Dat is vooral interessant voor  lange ORFs:

Lengte base-sequentie
Lengte eiwit
Gevonden aantal ORFs
> 300
100
167912
> 400
133
33901
> 500
167
6844
> 600
200
1382
> 700
233
279
> 800
267
56
> 900
300
11

 ORFfinder geeft dus heel wat ORFs op een random DNA sequentie. Behoorlijk wat ruis.

 

4          Toevalseiwit

Toevals-DNA geeft dus heel wat Open Reading Frames. Stel dat elk ORF wordt vertaald in een eiwit, is dat dan een redelijk eiwit? Iets functioneels?

Dat is moeilijk te voorspellen. De driedimensionale vorm van een eiwit kan niet voorspeld worden uit de aminozuurvolgorde. Wel is het mogelijk om de aminozuurvolgorde te vergelijken met andere aminozuurvolgordes, aminozuurvolgordes waarvan de driedimensionale vorm bekend is. Er is ook een website voor, bijvoorbeeld PHYRE2. Heeft een random gegenereerd eiwit dan een redelijke drie-dimensionale vorm? Ja, dat kan ook nog wel.

Bijvoorbeeld deze toevalssequentie voor DNA:

ATGCCTGGCGGGCAGACGCTACCTTCCAGGAAATGGACGGGAATTCCAAAATGTACTATGTGGGTGTGGCAACTGAGCCACACAGGAGTCACAACCCCACCAAAGTGTGTCGGCGACAGAGCCCCTTGTATTGGCCGTATAAGATATCATAGGATTGCAAAGCTATGTTGCATAGTGGACTCAATAGTATTGAAAAGGGGGACATGA

Gaf deze aminozuursequentie:

MPGGQTLPSRKWTGIPKCTMWVWQLSHTGVTTPPKCVGDRAPCIGRIRYH RIAKLCCIVDSIVLKRGT*

Zonder het begin codon ATG (voor M, methionine), ziet de voorspelling voor de secundaire structuur er zo uit:

 
Met alpha-helix in groen en beta-sheet in blauw. Het lijkt niet een al te onmogelijk eiwit

 4          Moraal: 

- transcriptie heeft veel ruis, ook rommel-DNA wordt veelal over geschreven in RNA.

- veel Open Leesramen (ORF's) ontstaan ook volgens toeval, als ruis.

- een ruis-eiwit kan er nog redelijk uitzien

******








http://www.sbg.bio.ic.ac.uk/phyre2/html/page.cgi?id=index