Troep. Zootje ongeregeld. Rommel maar wat aan. Dat is wat
een cel met DNA en zo doet. Terwijl het op school lijkt alsof al die genetische
biochemie zo precies geregeld is. Nou nee.
Op de middelbare school wordt geleerd: DNA geeft RNA
geeft eiwit. DNA geeft RNA heet transcriptie, RNA geeft eiwit heet translatie. DNA
heeft de basen A, C, G, T en RNA heeft de basen A, C, G, U. Base G paart met
base C en base A paart met base T (of base U). Verder is het eigenlijk niet
nodig iets van die basen te weten, alleen dat paren is echt van belang. En natuurlijk dat eeen drietal basen een code is voor een aminozuur, of 'start' of 'stop'.
Hoeveel
transciptie van het DNA is er, hoeveel translatie? Hoeveel transcriptie /
translatie is ruis?
Het hangt van de soort af hoeveel DNA ook eiwit-betekenis
heeft. Bij de mens wordt iets als 2% van het DNA in eiwit omgezet. Verder is er DNA dat
op een of andere manier iets met met
genregeling te maken heeft; eiwit-coderend en regulerend samen iets als 6% van het DNA. De overige 82% (bij de mens) is
restjes virus, restjes transposons, herhalende stukken als een paar duizend
keer de basen AC, en in functionerende genen de introns tussen de voor eiwit
coderende delen. Er wordt dus weinig DNA in eiwit omgezet : heel weinig.
Hoeveel transcriptie is er? Veel meer.
2 Transscriptie
Transcriptie begint als RNA-polymerase ergens aan het DNA
bindt, en daar heeft het RNA-polymerase een herkenningssequentie voor nodig. Transcriptie
kan op minstens drie varianten van het DNA beginnen, steeds met een reeksje
basen. Voorbeelden van plekken voor begin van transcriptie zijn TATAWAW en RGWYV(T) en YYANWYY
(hier is W: A of T; R: A of G; Y: C of T; V: A of C of G; N: A of C of G of T).
Dat geeft nogal wat mogelijkheden. Soms heeft een gen meer dan één plaats
hebben waar transcriptie kan beginnen,maar in de meeste gevallen is er één goed
begin voor transcriptie maar kan het RNA-polymerase er ook naast zitten omdat
er tig basen verderop ook wel een sequentie van zeven basen op een beginplek
lijkt. En meest belangrijk, er zijn mogelijkheden te over voor RNA-polymerase
om aan DNA te binden zonder dat die plek ook netjes naast een gen ligt.
In al die restjes virus en restjes transposons zijn er
heel veel plaatsen met zes of zeven
basen naast elkaar die op een beginsequentie voor transcriptie lijken. Dat
krijgje zo met een paar miljard basen op toevalsvolgorde. De kans op een
basevolgorde die tot het begin van transciptie leidt is weliswaar (1/4)7=
0.0000610352, maar vermenigvuldigd met 2 miljard is dat toch naar verwachting meer
dan honderdduizend mogelijk plekken voor transcriptiebegin, door toeval
alleen. Rommel DNA op toevalsvolgorde wordt rustig in RNA omgezet. Dan heb je
loos RNA dat weer afgebroken wordt. Er zijn studies die zeggen dat misschien 80%
van het DNA wel eens wordt overgeschreven in RNA. Terwijl maar 8% van het DNA
zinnig RNA geeft. Dus 70% van al het DNA leidt tot loos RNA, en van alle
overschrijving van DNA tot RNA is 7/8 loos. Dat wordt dan weer afgebroken.
Nu doet dit er niet veel toe: elk molecuul loos RNA komt
misschien eens in de zoveel keer in één exemplaar in een cel voor. Nuttig RNA
dat regelt of tot eiwit leidt komt in grote hoeveelheden van elk molecuul in
een cel voor.
Transcriptie levert dus heel veel ruis op.
3 Translatie,
Open Reading Frames
Translatie lijkt veel stricter op het eerste oog. Translatie
van RNA in eiwit begint bij een startcodon AUG en eindigt bij een stopcodon
UGA, UAA of UAG. Bij nuttig RNA gaan er een aantal basen aan dat startcodon
vooraf, maar niet erg veel: 20. 30, of zo. Bij loos RNA is er geen enkele
garantie dat er een startcodon voor translatie op redelijke afstand van het
RNA-begin te vinden is. Dan geeft de translatiemachine, het ribosoom, het op.
Aan de andere kant, een toevallig begin voor transcriptie
TATAWAW met een een ATG in het DNA op een nette afstand is best mogelijk als er
alleen ruis is. Het is niet verboden. Ook is het dan mogelijk dat pas vele drietallen basen na
het startcodon een stopcodon optreedt. Dan heb je door toeval alleen een Open
Reading Frame, een Open Leesraam ORF) dat een mogelijk gen is.
Komt dat vaak voor? O ja.
Ik gebruikte EXCEL voor het genereren van een
toevalssequentie van DNA van 50 000 basen lang, met de vier basen A, C, G, T op
toevalsvolgorde. Het programma OrfFinder van de website https://www.ncbi.nlm.nih.gov/orffinder/ zoekt ORFs, en
heeft 50000 basen als maximumgrens voor de invoer. Hoeveel ORFs beginnnend met
ATG zijn er in een toevalssequentie van vijftigduizend basen lang?
In OrfFinder kun
je instellen hoe groot het ORF moet zijn. Dan krijg je dit:
Lengte
base-sequentie
|
Lengte
eiwit
|
Gevonden
aantal ORFs
|
> 30
|
10
|
764
|
> 75
|
25
|
365
|
> 150
|
50
|
103
|
> 300
|
100
|
9
|
> 600
|
200
|
0
|
Lengte
base-sequentie
|
Lengte
eiwit
|
Gevonden
aantal ORFs
|
> 300
|
100
|
167912
|
> 400
|
133
|
33901
|
> 500
|
167
|
6844
|
> 600
|
200
|
1382
|
> 700
|
233
|
279
|
> 800
|
267
|
56
|
> 900
|
300
|
11
|
4 Toevalseiwit
Toevals-DNA geeft dus heel wat Open Reading Frames. Stel
dat elk ORF wordt vertaald in een eiwit, is dat dan een redelijk eiwit? Iets functioneels?
Dat is moeilijk te voorspellen. De driedimensionale vorm
van een eiwit kan niet voorspeld worden uit de aminozuurvolgorde. Wel is het
mogelijk om de aminozuurvolgorde te vergelijken met andere aminozuurvolgordes,
aminozuurvolgordes waarvan de driedimensionale vorm bekend is. Er is ook een
website voor, bijvoorbeeld PHYRE2. Heeft een random gegenereerd eiwit dan een
redelijke drie-dimensionale vorm? Ja, dat kan ook nog wel.
Bijvoorbeeld deze toevalssequentie voor DNA:
ATGCCTGGCGGGCAGACGCTACCTTCCAGGAAATGGACGGGAATTCCAAAATGTACTATGTGGGTGTGGCAACTGAGCCACACAGGAGTCACAACCCCACCAAAGTGTGTCGGCGACAGAGCCCCTTGTATTGGCCGTATAAGATATCATAGGATTGCAAAGCTATGTTGCATAGTGGACTCAATAGTATTGAAAAGGGGGACATGA
Gaf deze aminozuursequentie:
MPGGQTLPSRKWTGIPKCTMWVWQLSHTGVTTPPKCVGDRAPCIGRIRYH RIAKLCCIVDSIVLKRGT*
Zonder het begin codon ATG (voor M, methionine), ziet de
voorspelling voor de secundaire structuur er zo uit:
Met alpha-helix in groen en beta-sheet in blauw. Het
lijkt niet een al te onmogelijk eiwit
- transcriptie heeft veel ruis, ook rommel-DNA wordt veelal
over geschreven in RNA.
- veel Open Leesramen (ORF's) ontstaan ook volgens toeval,
als ruis.
- een ruis-eiwit kan er nog redelijk uitzien
******
http://www.sbg.bio.ic.ac.uk/phyre2/html/page.cgi?id=index
Gerdien, Dank. didactisch goed gedaan, mooie opbouw van het artikel, en leerzaam eigen experiment.
BeantwoordenVerwijderen..."een ruis-eiwit kan er nog redelijk l uitzien":
sterker nog zou ik zeggen:
Rapid evolution of protein diversity by de novo origination in Oryza, Nature Ecology & Evolutionvolume 3, pages679–690 (2019).
zelfs bij de mens:
Recent de novo origin of human protein-coding genes, Genome Res. 2009. 19: 1752-1759
Gert,
BeantwoordenVerwijderenIk begon hieraan toen ik het artikel over de novo genen bij rijst dat je noemt gezien had. Na nog wat verdere voorbereiding komt dat artikel aan de orde.
Interessant wat je schrijft over rommel-DNA. Ik heb een vraag over de ORF's.
VerwijderenJe simuleert een random streng van 50.000 baseparen en vindt dat er zo'n 1240 ORF's gevonden worden. Hoe verklaar je dat statisch gezien? De kan op een stop en start codon is toch (1/4)^3 elk, dus om beide toevallig te vinden is dan toch 0,00024 en dat komt over een met 12 setjes van start en stop codons voor een sequentie van 50.000. Ik zal het wel verkeerd zien, maar zo heb je hierover zelf toch ook de kans op een 7-basen transcriptie instructie berekend?
Gerdien, mijn natte vinger schatting klopt niet, zo heb ik inmiddels gevonden door een IDL-programma te schrijven dat een random DNA-string van 30.000 baseparen maakt, daarin vind het programma: aantal startcodons: 458
Verwijderenaantal stopcodons: 462, omgerekend naar 50.000 bp, zou dat zijn: 763 resp. 770. Daarbij is nog niet gekeken naar juist volgorde en afstand tussen start en stopcodon (ATG resp. TAA).
In ieder geval heb ik een resultaat gevonden dat overeenstemt met jouw simulatie, alleen begrijp ik nog niet
Gerdien, de statistieken van random ORFs waren de basis voor Periannan Senapathy (1994) "Independent Birth of Organisms. A New Theory That Distinct Organisms Arose Independently From The Primordial Pond Showing That Evolutionary Theories Are Fundamentally Incorrect".
BeantwoordenVerwijderenDat was dus in 1994!
Hij nam dus dit soort statistieken als basis voor zijn theorie dat alle organismen ontstonden uit random DNA! Als de lengte van random DNA maar lang genoeg was dan ontstonden alle genen! Geweldig, toch? Gewoon geniaal. Zeker voor die tijd.
Kanttekening:
Gerdien, jij doet je statistieken uitsluitend op basis van START codons.
Vraag 1: wat gebeurt er bij transcriptie en translatie als er tussen twee startcodons geen stopcodon voorkomt?
Vraag 2: wat is de ORF lengte als je zowel met START als STOP codons rekening houdt?