zondag 26 mei 2019

Ruis, rommel


Troep. Zootje ongeregeld. Rommel maar wat aan. Dat is wat een cel met DNA en zo doet. Terwijl het op school lijkt alsof al die genetische biochemie zo precies geregeld is. Nou nee.

Op de middelbare school wordt geleerd: DNA geeft RNA geeft eiwit. DNA geeft RNA heet transcriptie, RNA geeft eiwit heet translatie. DNA heeft de basen A, C, G, T en RNA heeft de basen A, C, G, U. Base G paart met base C en base A paart met base T (of base U). Verder is het eigenlijk niet nodig iets van die basen te weten, alleen dat paren is echt van belang. En natuurlijk dat eeen drietal basen een code is voor een aminozuur, of 'start' of 'stop'.

Hoeveel transciptie van het DNA is er, hoeveel translatie? Hoeveel transcriptie / translatie is ruis?

 1          Indeling van het DNA

Het hangt van de soort af hoeveel DNA ook eiwit-betekenis heeft. Bij de mens wordt iets als 2% van het DNA in eiwit omgezet. Verder is er DNA dat op een of andere manier iets met met genregeling te maken heeft; eiwit-coderend en regulerend samen iets als 6% van het DNA. De overige 82% (bij de mens) is restjes virus, restjes transposons, herhalende stukken als een paar duizend keer de basen AC, en in functionerende genen de introns tussen de voor eiwit coderende delen. Er wordt dus weinig DNA in eiwit omgezet : heel weinig. Hoeveel transcriptie is er? Veel meer.

 
2          Transscriptie

Transcriptie begint als RNA-polymerase ergens aan het DNA bindt, en daar heeft het RNA-polymerase een herkenningssequentie voor nodig. Transcriptie kan op minstens drie varianten van het DNA beginnen, steeds met een reeksje basen. Voorbeelden van plekken voor begin van transcriptie zijn TATAWAW en RGWYV(T) en YYANWYY (hier is W: A of T; R: A of G; Y: C of T; V: A of C of G; N: A of C of G of T). Dat geeft nogal wat mogelijkheden. Soms heeft een gen meer dan één plaats hebben waar transcriptie kan beginnen,maar in de meeste gevallen is er één goed begin voor transcriptie maar kan het RNA-polymerase er ook naast zitten omdat er tig basen verderop ook wel een sequentie van zeven basen op een beginplek lijkt. En meest belangrijk, er zijn mogelijkheden te over voor RNA-polymerase om aan DNA te binden zonder dat die plek ook netjes naast een gen ligt.

In al die restjes virus en restjes transposons zijn er heel veel  plaatsen met zes of zeven basen naast elkaar die op een beginsequentie voor transcriptie lijken. Dat krijgje zo met een paar miljard basen op toevalsvolgorde. De kans op een basevolgorde die tot het begin van transciptie leidt is weliswaar (1/4)7= 0.0000610352, maar vermenigvuldigd met 2 miljard is dat toch naar verwachting meer dan honderdduizend mogelijk plekken voor transcriptiebegin, door toeval alleen. Rommel DNA op toevalsvolgorde wordt rustig in RNA omgezet. Dan heb je loos RNA dat weer afgebroken wordt. Er zijn studies die zeggen dat misschien 80% van het DNA wel eens wordt overgeschreven in RNA. Terwijl maar 8% van het DNA zinnig RNA geeft. Dus 70% van al het DNA leidt tot loos RNA, en van alle overschrijving van DNA tot RNA is 7/8 loos. Dat wordt dan weer afgebroken.

Nu doet dit er niet veel toe: elk molecuul loos RNA komt misschien eens in de zoveel keer in één exemplaar in een cel voor. Nuttig RNA dat regelt of tot eiwit leidt komt in grote hoeveelheden van elk molecuul in een cel voor.

Transcriptie levert dus heel veel ruis op.


3          Translatie, Open Reading Frames

Translatie lijkt veel stricter op het eerste oog. Translatie van RNA in eiwit begint bij een startcodon AUG en eindigt bij een stopcodon UGA, UAA of UAG. Bij nuttig RNA gaan er een aantal basen aan dat startcodon vooraf, maar niet erg veel: 20. 30, of zo. Bij loos RNA is er geen enkele garantie dat er een startcodon voor translatie op redelijke afstand van het RNA-begin te vinden is. Dan geeft de translatiemachine, het ribosoom, het op.

Aan de andere kant, een toevallig begin voor transcriptie TATAWAW met een een ATG in het DNA op een nette afstand is best mogelijk als er alleen ruis is. Het is niet verboden. Ook is het dan mogelijk dat pas vele drietallen basen na het startcodon een stopcodon optreedt. Dan heb je door toeval alleen een Open Reading Frame, een Open Leesraam ORF) dat een mogelijk gen is.

Komt dat vaak voor? O ja.

Ik gebruikte EXCEL voor het genereren van een toevalssequentie van DNA van 50 000 basen lang, met de vier basen A, C, G, T op toevalsvolgorde. Het programma OrfFinder van de website https://www.ncbi.nlm.nih.gov/orffinder/ zoekt ORFs, en heeft 50000 basen als maximumgrens voor de invoer. Hoeveel ORFs beginnnend met ATG zijn er in een toevalssequentie van vijftigduizend basen lang?

 In OrfFinder kun je instellen hoe groot het ORF moet zijn. Dan krijg je dit:

Lengte base-sequentie
Lengte eiwit
Gevonden aantal ORFs
> 30
10
764
> 75
25
365
> 150
50
103
> 300
100
9
> 600
200
0

 Vanuit het gevonden aantal ORFs kun je een voorspelling maken voor het aantal ORFs dat gevonden wordt in bv een miljard random basen in een genoom. Dat is vooral interessant voor  lange ORFs:

Lengte base-sequentie
Lengte eiwit
Gevonden aantal ORFs
> 300
100
167912
> 400
133
33901
> 500
167
6844
> 600
200
1382
> 700
233
279
> 800
267
56
> 900
300
11

 ORFfinder geeft dus heel wat ORFs op een random DNA sequentie. Behoorlijk wat ruis.

 

4          Toevalseiwit

Toevals-DNA geeft dus heel wat Open Reading Frames. Stel dat elk ORF wordt vertaald in een eiwit, is dat dan een redelijk eiwit? Iets functioneels?

Dat is moeilijk te voorspellen. De driedimensionale vorm van een eiwit kan niet voorspeld worden uit de aminozuurvolgorde. Wel is het mogelijk om de aminozuurvolgorde te vergelijken met andere aminozuurvolgordes, aminozuurvolgordes waarvan de driedimensionale vorm bekend is. Er is ook een website voor, bijvoorbeeld PHYRE2. Heeft een random gegenereerd eiwit dan een redelijke drie-dimensionale vorm? Ja, dat kan ook nog wel.

Bijvoorbeeld deze toevalssequentie voor DNA:

ATGCCTGGCGGGCAGACGCTACCTTCCAGGAAATGGACGGGAATTCCAAAATGTACTATGTGGGTGTGGCAACTGAGCCACACAGGAGTCACAACCCCACCAAAGTGTGTCGGCGACAGAGCCCCTTGTATTGGCCGTATAAGATATCATAGGATTGCAAAGCTATGTTGCATAGTGGACTCAATAGTATTGAAAAGGGGGACATGA

Gaf deze aminozuursequentie:

MPGGQTLPSRKWTGIPKCTMWVWQLSHTGVTTPPKCVGDRAPCIGRIRYH RIAKLCCIVDSIVLKRGT*

Zonder het begin codon ATG (voor M, methionine), ziet de voorspelling voor de secundaire structuur er zo uit:

 
Met alpha-helix in groen en beta-sheet in blauw. Het lijkt niet een al te onmogelijk eiwit

 4          Moraal: 

- transcriptie heeft veel ruis, ook rommel-DNA wordt veelal over geschreven in RNA.

- veel Open Leesramen (ORF's) ontstaan ook volgens toeval, als ruis.

- een ruis-eiwit kan er nog redelijk uitzien

******








http://www.sbg.bio.ic.ac.uk/phyre2/html/page.cgi?id=index

5 opmerkingen:

  1. Gerdien, Dank. didactisch goed gedaan, mooie opbouw van het artikel, en leerzaam eigen experiment.
    ..."een ruis-eiwit kan er nog redelijk l uitzien":
    sterker nog zou ik zeggen:
    Rapid evolution of protein diversity by de novo origination in Oryza, Nature Ecology & Evolutionvolume 3, pages679–690 (2019).

    zelfs bij de mens:
    Recent de novo origin of human protein-coding genes, Genome Res. 2009. 19: 1752-1759

    BeantwoordenVerwijderen
  2. Gert,
    Ik begon hieraan toen ik het artikel over de novo genen bij rijst dat je noemt gezien had. Na nog wat verdere voorbereiding komt dat artikel aan de orde.

    BeantwoordenVerwijderen
    Reacties
    1. Interessant wat je schrijft over rommel-DNA. Ik heb een vraag over de ORF's.
      Je simuleert een random streng van 50.000 baseparen en vindt dat er zo'n 1240 ORF's gevonden worden. Hoe verklaar je dat statisch gezien? De kan op een stop en start codon is toch (1/4)^3 elk, dus om beide toevallig te vinden is dan toch 0,00024 en dat komt over een met 12 setjes van start en stop codons voor een sequentie van 50.000. Ik zal het wel verkeerd zien, maar zo heb je hierover zelf toch ook de kans op een 7-basen transcriptie instructie berekend?

      Verwijderen
    2. Gerdien, mijn natte vinger schatting klopt niet, zo heb ik inmiddels gevonden door een IDL-programma te schrijven dat een random DNA-string van 30.000 baseparen maakt, daarin vind het programma: aantal startcodons: 458
      aantal stopcodons: 462, omgerekend naar 50.000 bp, zou dat zijn: 763 resp. 770. Daarbij is nog niet gekeken naar juist volgorde en afstand tussen start en stopcodon (ATG resp. TAA).
      In ieder geval heb ik een resultaat gevonden dat overeenstemt met jouw simulatie, alleen begrijp ik nog niet

      Verwijderen
  3. Gerdien, de statistieken van random ORFs waren de basis voor Periannan Senapathy (1994) "Independent Birth of Organisms. A New Theory That Distinct Organisms Arose Independently From The Primordial Pond Showing That Evolutionary Theories Are Fundamentally Incorrect".
    Dat was dus in 1994!
    Hij nam dus dit soort statistieken als basis voor zijn theorie dat alle organismen ontstonden uit random DNA! Als de lengte van random DNA maar lang genoeg was dan ontstonden alle genen! Geweldig, toch? Gewoon geniaal. Zeker voor die tijd.

    Kanttekening:
    Gerdien, jij doet je statistieken uitsluitend op basis van START codons.
    Vraag 1: wat gebeurt er bij transcriptie en translatie als er tussen twee startcodons geen stopcodon voorkomt?
    Vraag 2: wat is de ORF lengte als je zowel met START als STOP codons rekening houdt?

    BeantwoordenVerwijderen