Nieuwe publicatie toont superieur ontwerpmodel

by | jan 7, 2019 | Astronomie & Kosmologie, Geschiedenis, Informatica

Wist je dat Mars achteruit loopt (19-07-2018)? De afgelopen paar weken, en nog enkele weken die komen, bevindt Mars zich in de retrograde bewegingsfase. Als u zijn positie elke nacht in kaart brengt ten opzichte van de achtergrondsterren, ziet u dat deze stil lijkt te staan en vervolgens van richting veranderd, daarna opnieuw stil staat en dan weer in de normale richting beweegt. En wist je ook dat retrograde beweging hielp om een revolutie te veroorzaken? Twee millennia geleden dicteerde de Aristotelische natuurkunde dat de aarde in het centrum van het universum stond. Het heliocentrische model van Aristarchus, dat de zon centraal stelde, raakte uit de gratie. Maar wat het geocentrisme van Aristoteles niet kon verklaren, was deze retrograde beweging. Als de planeten rond de aarde draaien, waarom pauzeren ze dan soms en keren ze van richting om? Dat probleem hield Ptolemaeus bezig en de geleerde lessen zijn nog steeds belangrijk vandaag.

Ptolemaeus verklaarde anomalieën zoals retrograde beweging met extra mechanismen, zoals epicykels (hulpcirkels), terwijl de cirkelvormige beweging werd gehandhaafd die, zoals iedereen wist, de basis moest zijn van elke beweging in de kosmos. Met minder dan honderd epicykels was hij in staat om de bewegingen van de kosmos te modelleren en nauwkeurig te voorspellen. Maar die nauwkeurigheid had een prijskaartje: een zeer gecompliceerd model.

In de Middeleeuwen wees Willem van Ockham erop dat wetenschappelijke theorieën moeten streven naar eenvoud en ongecompliceerd. Dit kan een van de factoren zijn geweest waarom Copernicus het heliocentrisch model van Aristarchus weer tot leven wekte. Copernicus bleef bij de vereiste cirkelvormige beweging, maar door over te schakelen naar een model met een in het centrum staande zon, kon hij het aantal aanvullende mechanismen, zoals epicykels, aanzienlijk verminderen. Zowel de modellen van Ptolemaeus als Copernicus voorspelden accuraat de hemelse beweging. Maar Copernicus was soberder. Er was een beter model gevonden.

Kepler stelde ellipsvormige bewegingen voor en toonde aan dat daarmee het heliocentrische model nog eenvoudiger kon worden. Dat voorstel werd echter niet goed ontvangen omdat, zoals iedereen wist, hemellichamen in cirkels rondgaan. Hoe dwaas om te denken dat ze langs elliptische paden zouden bewegen. Die volgende stap naar grotere eenvoud zou moeten wachten op mensen als Newton, die aantoonden dat de ellipsen van Kepler werden gedicteerd door zijn nieuwe, zeer eenvoudige natuurkunde. Newton beschreef een eenvoudige, universele, zwaartekrachtwet. De zwaartekracht van Newton zou een versnelling veroorzaken, die de orbitale beweging in de kosmos zou kunnen handhaven.

Maar was er echt een zwaartekracht? Die zou evenredig zijn aan de massa van het object, dat dan vervolgens genegeerd werd om de versnelling te berekenen. Waarom zou de zwaartekracht niet meteen een versnelling veroorzaken? Eeuwen later vertelde Einstein over een man in Berlijn die uit een raam viel. De man voelde niets totdat hij de grond raakte! Einstein verwijderde de zwaartekracht en maakte de fysica nog eenvoudiger.

Het punt hier is dat de nauwkeurigheid van een wetenschappelijke theorie op zichzelf heel weinig betekent. Het moet in samenhang met zijn eenvoud worden beschouwd. Deze les is belangrijk in deze tijd van Big Data. Analisten weten dat een model altijd nauwkeuriger kan worden gemaakt door meer termen toe te voegen. Maar zijn die aanvullende termen zinvol of zijn het slechts epicykels? Het ziet er goed uit om modelfouten tot nul te reduceren door termen toe te voegen, maar wanneer ze worden gebruikt om voorspellingen te doen, blijken dergelijke modellen slechter te presteren.

Men kan niet straffeloos termen toevoegen en het scheermes van Ockham tarten. Er zijn tegenwoordig geavanceerde algoritmen beschikbaar om de nauwkeurigheid en de eenvoud van een model tegenover elkaar af te wegen.

Dit brengt ons bij gemeenschappelijke afstamming, een populaire theorie voor het modelleren van relaties tussen soorten. Zoals we hier vaak hebben besproken, faalt de gemeenschappelijke afstamming om relaties tussen soorten te modelleren en er zijn een groot aantal aanvullende mechanismen – biologische epicykels – nodig om de gegevens passend te maken.

En net zoals kosmologie een stroom van steeds verbeterde modellen heeft gezien, kunnen de biologische modellen ook verbeteren. Deze week is een zeer belangrijk model voorgesteld in een nieuw artikel, geschreven door Winston Ewert, in het tijdschrift Bio-Complexity.1

Geïnspireerd door computersoftware, modelleert Ewert de soorten als deelmodules die gerelateerd zijn in een afhankelijkheidsgrafiek. Dit nuttige model in de computerwetenschap werkt ook bij het modelleren van de soorten. Om deze hypothese te evalueren, gebruikt Ewert drie soorten gegevens en evalueert met behulp van drie modellen hoe waarschijnlijk zij zijn (rekening houdend met zowel eenvoud als nauwkeurigheid). De drie soorten gegevens van Ewert zijn: (i) Steekproefcomputersoftware, (ii) gesimuleerde soorten via evolutionaire/gemeenschappelijke afkomst gegenereerd op basis van computeralgoritmen (iii) actuele gegevens van werkelijke soorten. De drie modellen van Ewert zijn: (i) Een nulmodel dat geen relaties tussen enige soort inhoudt, (ii) een evolutionair/gemeenschappelijke afstammingsmodel en (iii) een afhankelijkheidsgrafiek model.

Ewert’s resultaten zijn een voorbeeld van Copernicaanse revolutie. Ten eerste voldeed, niet verrassend, het nulmodel voor de gegevens van de computergestuurde computersoftware slecht. Computersoftware is zeer georganiseerd en er zijn relaties tussen verschillende computerprogramma’s en de wijze hoe ze putten uit fundamentele softwarebibliotheken. Maar als we de diagrammen voor gemeenschappelijke afkomst en afhankelijkheidsmodellen vergelijken, presteert de laatste veel beter in het modelleren van de software ‘soort.’ Met andere woorden, het ontwerp en de ontwikkeling van computersoftware is veel beter beschreven en gemodelleerd door een afhankelijkheidsgrafiek dan door een boom met een gemeenschappelijke afstamming.

Ten tweede is het voor de gesimuleerde soortgegevens die zijn gegenereerd met een algoritme voor gemeenschappelijke afkomst niet verrassend dat het model voor gemeenschappelijke afstamming veel beter was dan de afhankelijkheidsgrafiek. Dat zou per definitie waar zijn en dient om de aanpak van Ewert te valideren. Gemeenschappelijke afkomst is het beste model voor de gegevens die worden gegenereerd door een gemeenschappelijk afstammingsproces.

Ten derde is voor de werkelijke, echte soortgegevens het afhankelijkheidsgrafiekmodel astronomisch superieur vergeleken met het model met gemeenschappelijke afstamming.

Laat me dat herhalen voor het geval dit punt niet goed doordringt is. Als het er echt op aankwam, faalde de gemeenschappelijke afstamming in vergelijking met het afhankelijkheidsgrafiekmodel. De andere gegevenstypen dienden als bruikbare controles, maar voor de gegevens die van belang waren – de werkelijke, echte, biologische soortgegevens – waren de resultaten ondubbelzinnig.

Ewert verzamelde in totaal negen enorme genetische databases. In elk apart, zonder uitzondering, overtrof het afhankelijkheidsgrafiekmodel de gemeenschappelijke afkomst. Darwin had nooit kunnen dromen van een test op zo’n enorme schaal. Darwin had ook nooit kunnen dromen van de enorme omvang van het falen van zijn theorie. Want je ziet, Ewert’s resultaten laten niet slechts twee competitieve modellen zien waarvan het ene model beter is dan het andere. We hebben het hier niet over verschillen van enkele cijfers achter de komma. Voor een van de datasets (HomoloGene) was het afhankelijkheidsgrafiek model superieur aan het gemeenschappelijke-afstamming model met een factor 10.064. De vergelijking van de twee modellen leverde een meer dan tienduizend maal grotere voorkeur op voor het afhankelijkheidsgrafiekmodel. Tienduizend is een groot getal. Maar het is erger, veel erger.

Ewert gebruikte de Bayesiaanse modelselectie, die de waarschijnlijkheid van de gegevensverzameling vergelijkt met de hypothetische modellen. Met andere woorden, gezien het model (afhankelijkheidsgrafiek of gemeenschappelijke afstamming), wat is de waarschijnlijkheid van deze specifieke dataset? De Bayesiaanse modelselectie vergelijkt de twee modellen door deze twee voorwaardelijke kansen te delen. De zogenaamde Bayes-factor is het quotiënt dat deze deling oplevert.

Het probleem is, dat het gemeenschappelijke-afstamming model zo ongelooflijk inferieur is aan het afhankelijkheidsgrafiek model dat de Bayes-factor niet gewoon uitgeschreven kan worden. Met andere woorden, de kans dat de dataset volgens het afhankelijkheidsgrafiek model, is zoveel groter dan de waarschijnlijkheid van de dataset, volgens het gemeenschappelijke-afkomst model, dat we het quotiënt van hun deling niet kunnen uitschrijven. In plaats daarvan vermeldt Ewert de logaritme van het getal. Herinner je nog logaritmen? Weet je nog hoe (voor logaritme met grondtal 10) 2 in feite 100 betekent, 3 betekent 1000, enzovoort?

Ongelooflijk, de 10.064 waarde is de logaritme (met grondtal 2) van het quotiënt! Met andere woorden, de waarschijnlijkheid van de gegevens op het afhankelijkheidsgrafiek model is zoveel groter dan die van het gemeenschappelijke-afstammings model, dat we zelfs logaritmen nodig hebben om af te drukken. Als je het gewone getal probeerde te schrijven, zou je een 1 moeten typen gevolgd door meer dan 3.000 nullen! Dat is de verhouding hoe waarschijnlijk de gegevens van deze twee modellen zijn! Door het grondtal 2 in de logaritme te gebruiken, drukken we de Bayes-factor in bits uit. Dus de voorwaardelijke kans voor het afhankelijkheidsgrafiekmodel heeft een 10.064 voorkeur boven dat van gemeenschappelijke afstamming.

10.064 bits is ver, zo ver verwijderd van wat men het mindere model zou kunnen beschouwen. Zie bijvoorbeeld de Bayes-factoren op Wikipedia-pagina, die uitlegt dat een Bayes-factor van 3.3 bits ‘substantieel’ bewijs levert voor een model, 5,0 bits ‘sterk’ bewijs levert en 6.6 bits ‘beslissend’ bewijs levert.2 Dit is lachwekkend. 6.6 bits worden beschouwd als ‘beslissend’ bewijs, en als het afhankelijkheidsgrafiek model vergeleken wordt met het gemeenschappelijke-afkomst model, krijgen we 10.064 bits. Maar het is nog erger.

Het probleem met dit alles is dat de Bayes-factor van 10.064 bits voor de HomoloGene gegevensset verreweg de beste resultaat is voor algemene afstamming. Voor de andere acht gegevenssets variëren de Bayes-factoren van 40.967 tot 515.450. Met andere woorden, hoewel 6.6 bits beschouwd kan worden als ‘beslissend’ bewijs voor het afhankelijkheidsgrafiek model, bieden de werkelijke, echte, biologische gegevens Bayes-factoren van 10.064 op maximaal 515.450.

We weten al heel lang dat gemeenschappelijke afstamming duidelijk heeft gefaald. In het nieuwe artikel van Ewert hebben we nu gedetailleerde, kwantitatieve resultaten die dit aantonen. Ewert biedt ons daarnaast een nieuw model, die veruit superieur is voor wat betreft het inpassen van de data.

Dit artikel is met toestemming overgenomen van de website Darwin’s God. Het originele artikel is hier te vinden.

Voetnoten

  1. http://bio-complexity.org/ojs/index.php/main/article/view/BIO-C.2018.3/BIO-C.2018.3
  2. https://en.wikipedia.org/wiki/Bayes_factor