Open Leesramen (Open Reading Frames, ORFs) kwamen dus
(zie vorige) met gemak voor in een volledig toevallige DNA sequentie, en konden
ook nog overgeschreven worden naar RNA, en konden soms ook nog vertaald worden
in redelijk uitziend eiwit.
Open Leesraam: ergens in de DNA sequentie staat een startcodon ATG, en een aantal drietallen basen later een stopcodon TGA, TAA of TAG. |
Nu ja, dat was voor eigen gemaakte DNA sequenties.
De volgende stap is naar een bestaande DNA-sequentie te
kijken, en te bezien wat dat oplevert aan ORFs, volgens de programma's die ORFs
zoeken tenminste.
Dus eerst iets over die gekozen bestaande sequentie, en
wat daar in zit. Daarna over wat ORFFINDER en GETORF er van maken.
**
Welke DNA sequentie geeft FLYBASE? DNA heeft twee
strengen, de + en de – streng. De conventie is dat de + streng dezelfde base
volgorde heeft als het bijbehorende RNA; behalve dat RNA de base U heeft waar
DNA de base T heeft. De basevolgorde in de + streng wordt altijd opgegeven op
papier en op internet, dus op FLYBASE en alle andere programmas en overzichten.
Een gen ligt op de + streng of op de – streng.
Voor de + streng lees je van links naar rechts, en voor
de – streng lees je van rechts naar links. Het startcodon ATG van een gen op de
+ streng staat dan als ATG op de opgegeven DNA volgorde; het startcodon ATG van
een gen op de – streng staat als CAT in de opgegeven + streng. ATG / CAT kan ook
midden in een coderend stuk DNA staan, en wordt dan vertaald als aminozuur
methionine.
Mijn keuze van een gedeelte uit het Drosophila melanogaster DNA om eens naar te kijken is gevallen op
de omgeving van vier genen voor Insulin-like protein: Ilp1, Ilp2, Ilp3, Ilp4. Die
vier genen zijn alle vier vrij klein, van 360 tot 462 basen, en liggen dicht bij
elkaar op deze volgorde op chromosoom 3, linkerarm. FLYBASE wil wel het DNA uit
de omgeving van die vier genen opgeven.
Het handigste is dan om te beginnen met gen CG32052, een
officiëel en lang gen met een aantal exons en introns. lp2, Ilp3 en !lp4 liggen
in een intron van CG32052; Ilp1 en Ilp2 liggen op de + streng, Ilp3 en Ilp4
liggen op de – streng; dat is te zien aan de richting van het pijltje. Gen Zasp67
ligt op de – streng, in een stuk niet-vertaald RNA dat bij gen CG32052 schijnt
te horen. Gen CG8177 ligt voor gen CG32052 op de + streng.
Voor de DNA sequentie tussen de basenummers 9780000 en
9811000 staat in de figuur opgegeven wat er bekend is. De weergave lijkt op
stukjes draad met kralen. Er staat welke
genen bekend zijn in schema, welke basen overgeschreven worden naar RNA
(transcript) als de draad en welke basen vanuit RNA weer omgezet worden in
eiwit (CDS, coding sequence), als de kralen. De lange genen CG32052, Zasp67 en
CG8177 geven eiwitvarianten. FLYBASE is nogal onduidelijk over wat de eiwitten van
deze genen eigenlijk doen, terwijl de functie van de Ilp genen duidelijk is:
insuline-achtig, van alles met stofwisseling en groei.
FLYBASE geeft DNA sequenties met kleurcodes zodat je kunt
zien of het om tussen-gen DNA, in RNA overgeschreven DNA of naar eiwit vertaald
DNA gaat. Voor gen CG32052 geeft FLYBASE basen genummerd 9787046 tot en met 9808713,
vanaf de eerste base die overgeschreven wordt tot en met de laatste base die
overgeschreven wordt. Voor het zoeken naar ORFs heb ik ook maar even 5000 basen
aan beide kanten opgepikt. Voor base 9787046 zit een stukje intergen-DNA, en
weer daarvoor een deel van gen CG8177. Na base 9808713 zijn alle 5000 basen als
intergen aangemerkt. In totaal gaat het om basen 9782046 tot en met 9813713 in
de werkfile.
Voor het zoeken naar open leesramen is er dan intergen
DNA, overgeschreven maar onvertaald DNA, intron en exon DNA gegeven.
**
2 Wat krijg
je op dat stuk Drosophila melanogaster
DNA aan open leesramen, als je er GETORF en ORFFINDER op loslaat?
De programma's GETORF en ORFFINDER geven allebei 260
ORF's van tenminste 75 basen (tenminste 25 aminozuren) lang voor de werkfile,
gelukkig ook nog met dezelfde nummers van begin-base en eind-base. ORFFINDER
geeft de posities van ORFs in de DNA-sequentie, GETORF geeft bovendien naar
gewenst de basesequentie per ORF van start-codon tot stop-codon of de vertaling
daarvan in aminozuren.
**
3 Wat
stellen de gevonden open leesramen voor?
De eerste vraag is of we de vier Ilp-genen en naastliggende
genen terugvinden. Dat doen ORFFINDER en GETORF: de posities van de ilp-genen
zijn aangegeven en ze liggen netje van links naar rechts.
Open leesraam 105 geeft de DNA sequentie en
aminozuurvolgorde van het gen Ilp1, Insulin-like protein 1. Hier komt het
opgegeven open leesraam overeen met het gen als in FLYBASE.
Voor beide programma's, GETORF en ORFFINDER, geldt dat ze
geen introns herkennen. Ilp2, Ilp3 en Ilp4 hebben een intron, en geven als
gevonden open leesraam het eerste exon en een stukje intron tot een stop-codon
verschijnt. Het is goed te zien aan de basevolgorde en aminozuurvolgorde die
GETORF opgeeft. Het gevonden open leesraam geeft dus niet per definitie een gen,
zelfs niet als het open leesraam coderend DNA oppikt.
Verder staan ORF212, ORF194, ORF30, ORF12, ORF69 en vooral
ORF2 als lange ORFs aangegeven. Welke genen zouden dat zijn? Herkent het
programa BLAST die aminozuurvolgorde als een bestaand eiwit?
ORF naam
|
Aantal
aminozuren
|
Plaatsing ongeveer
|
Leesrichting
|
BLAST
resultaat
|
|
orf
|
gen
|
||||
ORF2
|
563
|
CG8177
|
+
|
+
|
CG8177,
aa 541
|
ORF212
|
214
|
CG8177
|
-
|
+
|
geen
|
ORF194
|
197
|
Zasp67
|
-
|
-
|
Zasp67,
aa 84
|
ORF30
|
176
|
CG32052
|
+
|
+
|
CG32052,
aa 82
|
ORF105
|
154
|
Ilp1
|
+
|
+
|
Ilp1
|
ORF12
|
143
|
Zasp67
|
+
|
-
|
geen
|
ORF69
|
143
|
CG32052
|
+
|
+
|
CG32052,
aa 420
|
**
4 Komen ORFs
ook uit overgeschreven maar niet voor eiwit coderende stukken DNA?
Ja, ORF's worden ook gevonden in overgeschreven
niet-coderend DNA.
Base 9782046 tot en met 9786467, en base 9787046 tot en
met 9808713 worden overgeschreven van DNA in RNA. Dat zijn de basen 1 t/m 4420
en 5000 t/m 26667 van de werkfile. Coderend DNA zit verspreid door dit gebied,
zodat het wat lastig is om te zien of een open leesraam in zijn geheel in
niet-coderend RNA gevonden wordt.
Een relatief lang stuk 'gene span' xxxxxx,
opgegeven als niet coderend, is van base 12717 tot en met 15382 in de werkfile.
In dit deel van de sequentie worden 22 ORFs gevonden.
Basen 3271 tot en met 4421 van de werkfile worden
opgegeven als Untranslated Region XXXXXX; in deze 1150 basen worden 4
ORFs gevonden, van 43, 31, 25 en en ORF205 van 65 aminozuren lang. Voor ORF205 ziet er
zo uit, in de één-letter code voor aminozuren: MYKYNVFVLVFCVFFFLLFFNILTTSTKKANLQRPLQTRSIYFKRKLRLKCLKRFFCYKQLFVRS
**
5 Komen
ORFs ook uit niet-overgeschreven stukken DNA?
Zeker. In de werkfile zijn base 4421 tot 5000, en base 26667
tot en met 31667 afkomstig van DNA dat door FLYBASE is aangemerkt als
intergenic. In deze laatste 5000 basen van de werkfile vinden GETORF en
ORFFinder 45 open leesramen. Voor elk van die open leesramen wordt een
aminozuursequentie opgegeven. De langste aminozuursequentie die GETORF geeft
voor dit stuk niet-overgeschreven DNA komt op 133 aminozuren. Voor ORF166, de langste, ziet er zo
uit, in de één-letter code voor aminozuren: MFLNIFYQLSNDEYLIVGELVYVILSSCSFHLLIFLEILFCHQEQRPHDRQNQQLSAVILLCPAISQVHVLSMRSSTTISAFSVCSRHCSPVHRPPVPPANPPPPPNIPSLLRLSAKFNPCTKSSAAEHLTGN
Geen overeenkomend eiwit gevonden met BLAST: zo'n eiwit is dus nergens (nog) gevonden.
Gemiste kans voor transcriptie! Zet er een
transcriptiebox voor, en je weet maar nooit.
**
6 Leiden
die gevonden open leesramen tot zinnig eiwit?
Er zijn 260 open leesramen gevonden, dus dat wordt een
keuze maken om uit te proberen hoe een eiwit eruit zal zien. Het programma PHYRE2 zoekt door bekende vouwingen van eiwitten of er een vouwing bij deze aminozuurvolgorde hoort.
Gen Ilp1 eerst maar. Met alle 154 aminozuren zou het eiwit zou er ongeveer zo
uit kunnen zien, eerste mogelijkheid volgens PHYRE2. PHYRE2 herkent de aminozuurvolgorde als iets met insuline.
Nu is het eiwit met 154 aminozuren een preproinsuline.
Het signaalpeptide aan de voorkant moet er nog af, dan heb je proinsuline.
Daarna een stukje midden uit het eiwit knippen, dan heb je insuline. Hoe groot
die eiwitketens van de onderdelen zijn kun je vinden op UNIPROT. PHYRE2 geeft
voor de werkzame A- en B-ketens deze vorm voor een eiwit, met score 100%:
Vergelijk deze vorm voor Drosophila insuline-achtig peptide 1 met een gepubliceerde vorm voor menselijk insuline:
PHYRE2 doet het niet al te gek. Toch maar PHYRE2
gebruiken om te zien of er iets van een driedimensionaal eiwit van de aminozuurvolgordes van meer willekeurige ORFs
te maken valt.
ORF 205 zit in het UnTranslated Region DNA vlak na het
einde van CG8177. Voordeze
ORF205 van 65 aminozuren lang heb ik met PHYRE2 geprobeerd een
driedimensionale structuur te vinden. Dertig van de 65 aminozuren leveren iets
op, nummer 9-38. Maar PHYRE2 is niet erg tevreden, lage score.
Ook voor open leesramen uit het 'intergenic DNA' heb ik
de langste gekozen om wat verder te bekijken. Dat is ORF166. Het middendeel van de aminozuurvolgorde van
open leesraam ORF166 geeft volgens PHYRE2 slecht gevouwen eiwit. Deze leek de
beste, nog steeds met een lage score.
Al met al,
het lijkt moeilijk om een net gevouwen eiwit uit zomaar een ORF te krijgen (op
grond van deze extreem kleine steekproef).
***
7 Moraal:
- veel open
leesramen (ORF's) ontstaan ook volgens toeval, als ruis.
- veel
zeldzamer is dat een open leesraam ruis is en ook nog tot een redelijk eiwit
leidt.
***********