maandag 30 november 2009

Verwantschap, niet afstamming

Een fylogenetische boom is geen stamboom. Een stamboom geeft afstamming, een fylogenetische boom overeenkomst. Overeenkomst kan het gevolg zijn van een zelfde levenswijze of van verwantschap. Die overeenkomst als gevolg van zelfde levenswijze stel ik uit tot ooit een volgende blogpost. Hier gaat het over verwantschap. In een stamboom weten we wie kinderen van wie zijn. In een fylogenetische boom niet.

Neem de volgende stamboom, van moeders en dochters: overopoe met twee dochters, elk weer twee dochters en zo door.






Veronderstel dat we op iets als mtDNA, dus iets dat van moeders op dochters rechtstreeks en haploid overerft, sorteren.
De acht dochters kunnen we bijvoorbeeld als volgt karakterisen:

>do111 htccccbbbaaaaaaaaaaaaaaaaaaaaddfge
>do112 htccccbbaabaaaaaaaaaaaaaaaaaaddfge
>do121 htccccbaaaaabbaaaaaaaaaaaaaaaddfge
>do122 htccccbaaaaabaabaaaaaaaaaaaaaddfge
>do211 htccccaaaaaaaaaaaaaaaaaaaabbbddfge
>do212 htccccaaaaaaaaaaaaaaaaaabaabbddfge
>do221 htccccaaaaaaaaaaaaaaaabbaaaabddfge
>do222 htccccaaaaaaaaaaaaaabaabaaaabddfge

De karakterising van de dochters lijkt niet erg op DNA, maar dat geeft niet. Een programma als ClustalW waarmee ik de eenvoudige fylogenetische boompjes maak geeft daar niet om.

De fylogenetische boom van de 8 dochters ziet er volgens ClustalW als volgt uit:


We zien dat dochter do111 en dochter do112 meer verwant zijn met elkaar dan met dochters do121 en do122, en dat dochters do111, do112, do 121 en do 122 onderling meer verwant zijn dan met de andere vier dochters.

Op grond van hun ‘sequentie’ zoals boven gegeven zien we dat dochter 111 op plaats 9 een b heeft – waar iedereen verder een a heeft staan. Dochter 112 heeft op plaats 11 een b, waar indereen verder een a heeft. We zouden dan kunnen veronderstellen dat de moeder, ma 11, de volgende ‘sequentie heeft, met op plaats 7 en 8 een b en verder niet:

>ma11 htccccbbaaaaaaaaaaaaaaaaaaaaaddfge

Op dezelfde manier kunnen we reconstreren:

>overopoe htccccaaaaaaaaaaaaaaaaaaaaaaaddfge
>opoe1 htccccbaaaaaaaaaaaaaaaaaaaaaaddfge
>opoe2 htccccaaaaaaaaaaaaaaaaaaaaaabddfge
>ma11 htccccbbaaaaaaaaaaaaaaaaaaaaaddfge
>ma12 htccccbaaaaabaaaaaaaaaaaaaaaaddfge
>ma21 htccccaaaaaaaaaaaaaaaaaaaaabbddfge
>ma22 htccccaaaaaaaaaaaaaaaaabaaaabddfge


Nu hebben we een ‘sequentie’ voor iedereen in de stamboom, en kunnen we een fylogenetische boom maken voor alle 15 individuen. Die fylogenetische boom ziet er als volgt uit:




We hebben alle 15 individuen gebruikt. Alle 15 individuen komen dan op het einde van een lijntje te staan, als gelijkwaardig. We zien dat er twee grote groepen zijn, behorend bij opoe 1 en opoe 2. Ook zien we dat overopoe en opoe 1 samen in een vorkje staan. Ja, zo werkt dat: overopoe is meer verwant met haar dochters opoe 1 en opoe 2 dan met haar kleindochters of achterkleindochters. Alleen, het programma moet kiezen of het overopoe bij opoe 1 of opoe 2 zet.
Waarom staan opoe 1 en opoe 2, de zusters, niet naast elkaar? Omdat opoe 1 in één letter van de ‘sequentie’ van overopoe verschilt, en opoe 2 ook in één letter van de ‘sequentie’ van overopoe verschilt, maar in een andere letter. Er zijn twee verschillen tussen opoe 1 en opoe 2.
Hoe zit dat met do212, do211, ma 21 en opoe 2?

>do211 htccccaaaaaaaaaaaaaaaaaaaabbbddfge
>do212 htccccaaaaaaaaaaaaaaaaaabaabbddfge
>ma21 htccccaaaaaaaaaaaaaaaaaaaaabbddfge
>opoe2 htccccaaaaaaaaaaaaaaaaaaaaaabddfge


Opoe2 en ma21 zijn hier meer verwant dan ieder van de twee is met do212 of do111: dat is omdat ze op plaats 25 en 27 a hebben (waar de dochters van ma21 verschillen). Waarom zijn ma21, do211 en do 212 niet dichter bij elkar gezet tegenover opoe2, op grond van de gedeelde b op plaats 28? Omdat de rest van de familie a heeft op plaats 28.

(Waaom het programma ClustalW besloot om do211 als dichter bij ma21 en opoe2 te sorteren dan do212 weet ik niet: dat zijn van die nare grapjes. )

In ieder geval: een stamboom omzetten in een fylogenetische boom kan narigheid opleveren in dit soort sorteringen op grond van DNA. Vergelijkbare groepen gebruiken, hier alleen de dochters, is een netter idee.

We kunnen wel afstamming zien in een fylogenetische boom: als een groep binnen een andere groep terechtkomt met sorteren.

Als er veel stammen van Drosophila simulans gebruikt worden zien we dat Drosophila sechellia en Drosophila mauritiana binnen de D. simulans sorteren. Dan zien we dat D. sechellia en D. mauritiana van D. simulans afstammen. Maar niet van een bepaalde D. simulans stam!
Bij Buteo galagapoensis zagen we dat Galapagos buizerd mtDNA binnen Swainson’s buizerd mtDNA sorteerde. Dan stamt B. galapagoensis van B. swainsoni af. Maar niet van een bepaalde B. swainsoni familie!

Invoer voor een fylogenetische boom komt altijd op het einde van een lijntje te staan. De overeenkomst tussen de invoer wordt in de fylogenetische boom weergegeven. In een fylogenetische boom kun je nooit besluiten dat twee groepen (families, soorten, stammen) die beide op het einde van een lijn staan van elkaar afstammen. Dus ook deze:


Hier staat dat de vogels en Archaeopteryx een gezamenlijke afstamming in de dinosauriers hebben. Uit een dergelijk diagram is nooit te besluiten dat de huidige vogels van Archaeopteryx afstammen. Hoe die gezamenlijke voorouder van Archaeopteryx en de huidige vogels er dan uitgezien zou hebben? Nou ja, iets als Archaeopteryx.

2 opmerkingen:

  1. Gerdien,
    hartelijk dank voor deze post.
    Je schrijft:
    "het programma moet kiezen of het overopoe bij opoe 1 of opoe 2 zet."
    Waarom moet het kiezen? Dit lijkt arbitrair. Het programma 'moet' alleen kiezen als het zo geprogrammeerd is. Waarom is het zo geprogrammeerd?
    Het verpest de hele boom.
    Opoe1 verschilt 1 mutatie met overopoe en opoe2 verschilt 1 (andere) mutatie met overopoe. Kwantitatief gelijkwaardig dus.
    In de boom komt opoe2 mijlen ver weg van opoe1 en overopoe.
    Dat ziet er niet goed uit.
    Je schrijft: "We zien dat er twee grote groepen zijn, behorend bij opoe 1 en opoe 2."
    Die twee groepen zijn gelijkwaardig, maar
    dat wordt niet zichtbaar in de boom.
    Uberhaupt zou de hele boom er spiegelbeeldig
    uit moeten zien. Dat is niet het geval.

    Nog een voorbeeld:
    Ma11 is met een dochter gegroepeerd,
    Ma21 is niet met een dochter gegroepeerd,
    maar met haar opoe.
    Dat is asymmetrisch, terwijl dit symmetrisch zou moeten zijn.

    Ale dochters verschillen 1 mutatie met hun
    moeders, en alle moeders verschillen 1 mutatie
    met hun moeders.
    Alle dochters hebben 3 mutaties,
    alle moeders hebben 2 mutaties,
    de opoe's hebben 1 mutatie,
    overopoe is uitgangssituatie.
    De hele boom zou dus spiegelbeeldig
    met als as opoe1 en opoe2 moeten zijn.

    Verder:
    Als je kijkt naar de 4 moeders dan zie
    je dat er 3 moeders met 1 dochter zijn gegroepeerd,
    en 1 moeder (ma21) met haar opoe.
    Vanwaar die willekeur?

    Je schrijft "dat zijn van die nare grapjes": vroeger noemden we dat software bugs :-)

    BeantwoordenVerwijderen
  2. Het programma geeft een nette uitkomst als alleen de dochters in de invoer zitten.

    Het programma is zo geprogrammeerd dat het alleen splitsingen in tweeën kan geven. Ik heb het programma niet met dezelfde invoer herhaaldelijk gerund, of met verandering van de volgorde van de invoer gerund. Omdat het programma alleen splitsingen in tweeën kan geven, vermoed ik dat de uitslag met opoe1 naast overopoe het gevolg is van de invoervolgorde van de ‘sequenties’.
    Opoe 2 en ma21 verschillen op 1 positie (net als opoe2 en ma22 trouwens). Opoe2 verschilt op 1 positie van ma21, en op 2 posities van do211 en do212.

    De moraal van het verhaal is:
    1 programma’s hebben hun trucjes, wees daarop verdacht
    2 stop liever geen ongelijkwaardige grootheden in een programma dat daar niet voor bestemd is.

    BeantwoordenVerwijderen