Overheersende toevalstreffers

Iedere maand verschijnen er bijna honderdduizend nieuwe medische publicaties. Het merendeel van die publicaties is fout. Dat beweert althans de Amerikaans-Griekse hoogleraar en methodoloog Ioannidis, maar veel wetenschappers delen zijn zorgen. ‘Fout’ betekent niet dat de cijfers niet kloppen, het slaat op de manier waarop de onderzoekers hun conclusies trekken uit de zee van getallen die bij onderzoek wordt geproduceerd. Onderzoekers trekken die conclusies met behulp van statistische methoden, met kansrekening dus, en die kansrekening is het probleem.

De meest gebruikte statistische methode is de t-toets, en de oorsprong daarvan ligt in het jaar 1904. Plaats van handeling: de Guinness bierfabrieken in Dublin. Guinness wilde het brouwen van bier wetenschappelijk aanpakken en nam daarom de jonge chemicus en wiskundige William Gosset in dienst. Gosset concentreerde zich op de biologische variatie van brouwerijgrondstoffen, zoals gerst en hop. Het gehalte aan harsen in de hop bepaalt de smaak en de stabiliteit van het bier; te veel hars maakt het bier ondrinkbaar, en te weinig ook. Elk hopbloemetje heeft echter een ander harsgehalte, en als Guinness een wagonlading hop wou kopen konden ze niet ieder bloemetje daarin doormeten. Gosset vond een manier om te berekenen hoeveel hopbloemetjes je moest analyseren om met een bepaalde zekerheid vast te stellen hoeveel hars de hele wagonlading hop bevatte. Als hij meldde: ‘Er is een kans van meer dan 5% dat deze partij gemiddeld te weinig hars bevat’, ging de koop niet door.

Vanuit de industrie verbreidde de statistische benadering zich naar het medisch onderzoek. Dat knapte daar zeer van op, want de statistische kansrekening levert objectieve normen om vast te stellen of de uitkomst van een onderzoek echt is of een toevalstreffer. Stel bijvoorbeeld dat een arts een nieuwe neusspray tegen hooikoorts uittest bij 10 patiënten, en dat die inderdaad minder snotteren als ze de spray gebruiken. Dat is nog geen bewijs dat het middel werkt, want hooikoorts komt en gaat, en het kan zijn dat sommige patiënten toevallig net in deze periode minder last hadden. Met een statistische toets kan de arts uit de gegevens van zijn 10 patiënten berekenen hoe groot het effect van de spray kan zijn op de totale wereldbevolking van hooikoortslijders. Hoe groot is het risico dat de spray bij hen gemiddeld niets zou doen, en dat het effect bij de patiënten stom toeval was? Als dat risico groter is dan 5% heet het effect ‘niet significant’ en is de werkzaamheid van de spray niet bewezen.

Biologie, psychologie, milieukunde en gezondheidswetenschappen zouden zonder statistiek hulpeloos zijn, en ook economie en sociologie leunen er zwaar op. Geneesmiddelen worden toegelaten, gevaarlijke stoffen verboden en verdachten tot gevangenisstraf veroordeeld op grond van statistische berekeningen. Die berekeningen zijn sinds Gosset en zijn hopbloemetjes complexer geworden, en ze zijn alleen nog uitvoerbaar met behulp van computerprogramma’s. Die computerprogramma’s kunnen snel en veel rekenen, en dat is meteen de reden waarom professor Ioannidis denkt dat er zoveel publicaties zijn met foute conclusies. De klassieke statistiek hield zich bezig met beperkte aantallen cijfers; als iemand in een schiettent acht van de tien keer in de roos schiet kun je statistisch precies voorspellen wat zijn kans is om bij de volgende 100 schoten 80 of meer keer raak te schieten. Het moderne onderzoek lijkt echter soms op een virtuele schiettent met een automatisch geweer dat er in alle richtingen op los knalt. Allicht dat sommige schoten dan de roos raken. Dat zijn de ‘significante’ uitkomsten die worden gepubliceerd, maar er is geen enkele reden om aan te nemen dat het automatische geweer bij het eerstvolgende schot weer raak schiet.

Veel toetsen veroorzaakt dus een inflatie van het aantal significante uitkomsten. Er bestaat een perverse prikkel die onderzoekers aanzet om zoveel mogelijk significante resultaten bij elkaar te vissen. Meer significanties betekent namelijk meer publicaties, en dus meer kans om je te profileren en om geld voor nieuw onderzoek te verwerven. De markt voor onderzoeksgelden is bikkelhard, en het vermogen van een onderzoeker om fondsen te werven bepaalt zijn kansen op een carrière, een inkomen, een hypotheek en balletlessen voor zijn dochter. Vandaar dat er heel veel statistische berekeningen worden gedaan. Soms leidt dat tot echte ontdekkingen, maar meestal blijkt er geen ‘significant’ effect meer uit te komen als andere onderzoekers de studie herhalen. Het effect is dan niet reproduceerbaar, en de oorspronkelijke publicatie was een toevalstreffer die beter snel kan worden vergeten.

De stroom van significanties leidt tot een stroom van persberichten over nieuwe geneeswijzen of over nieuw ontdekte oorzaken van vetzucht en kanker. Als anderen het onderzoek een paar jaar later herhalen wordt het effect meestal niet meer gevonden, maar dat is geen leuk nieuwtje en dus komt het zelden in de media. Vaak verschijnt het zelfs niet in de wetenschappelijke tijdschriften, want ook die zitten niet te popelen om negatieve studies. Het effect van koffie op de gezondheid is een voorbeeld. Dertig jaar geleden ontstond grote commotie over een verband tussen koffie drinken en alvleesklierkanker, maar dit effect bleek niet reproduceerbaar, net als andere nadelige effecten van koffie. Een ander voorbeeld is aspartaam en epilepsie: de enkele studie die iets vond kwam breeduit in de media, vervolgens werden die studies herhaald en bleek er geen verband te zijn. Het moderne DNA-onderzoek produceert zelfs zoveel ‘significante’ verbanden tussen genen en ziekte dat de betere wetenschappelijke tijdschriften ze alleen publiceren als ze zijn gereproduceerd in een nieuw onderzoek bij een andere bevolking.

De inflatie van het begrip ‘significant’ is een ernstige zaak, die de effectiviteit en geloofwaardigheid van het medisch onderzoek ondermijnt. Gelukkig heeft de medische researchgemeenschap een groot zelfreinigend vermogen. Er gaan dingen mis, die worden aan de kaak gesteld, en dan komt er een oplossing. In het verleden zijn ooit proefpersonen in medische experimenten misleid en beschadigd; als antwoord daarop hebben we nu medisch-ethische toetsingscommissies die tevoren goedkeuring moeten geven aan iedere medisch-wetenschappelijke handeling en die zelfs iedere tekst beoordelen waarmee onderzoekers proefpersonen willen werven. Een andere misstand was het wegmoffelen van studies door de farmaceutische industrie als de uitkomsten haar slecht uitkwamen; als antwoord daarop bestaat sinds kort de verplichting om elke studie bij mensen openbaar te maken in een register van medische experimenten zodra de werving van proefpersonen begint. Ook de financiële relaties tussen artsen en de farmaceutische industrie worden steeds meer openbaar gemaakt.

Voor de schijnsignificanties komt er dus hopelijk ook wel een oplossing. Maar zover is het nog niet, en daarom is het goed dat u weet hoe weinig ‘statistisch significant’ betekent.

Voor voetnoten zie mkatan.nl


Dit bericht heeft 4 reacties op “Overheersende toevalstreffers”

  1. p.c.van den noort zegt:

    Hoe komt u erbij dat een toevalstreffer als significant wordt beoordeeld ?Eigenlijk is het omgekeerd significant wil zeggen vermoedelijk geen toeval,of vermoedelijk is er sprake van oorzaak en gevolg.Laat u ook deze kritiek verwijderen ?

  2. Tweets die vermelden Wetenschap columns » Overheersende toevalstreffers -- Topsy.com zegt:

    [...] Dit blogartikel was vermeld op Twitter door Lichtwerker. Lichtwerker heeft gezegd: De onwetendheid in de wetenschap wordt opgelost met kansberekeningen http://bit.ly/aXc8J7 [...]

  3. Martijn Katan zegt:

    Geachte heer van den Noort,
    Inderdaad klinkt “toevallige significantie” net zo onmogelijk als “vierkante cirkel”. Toch bestaat het. Het volgende (fictieve) voorbeeld kan dat verduidelijken.
    Volgens het testament van oom Charles moeten zijn bezittingen door de notaris worden verloot tussen nicht Ans en neef Hans. Oom Charles had zes schilderijen. De notaris werpt een muntje op en het eerste schilderij gaat naar Hans. Het tweede ook, het derde ook, en het vierde, vijfde en zesde ook. Ans wordt boos en begint een rechtszaak, want de kans dat dit toevallig gebeurt, is 1 op 64 of 1,6%. Ans heeft een significante ontdekking gedaan: de notaris fraudeert!
    Maar wat als oom Charles niet alleen schilderijen had maar nog 99 andere soorten spullen, zodat de notaris een week lang aan het verloten was? Van de zes Bugattis (oom Charles had van alles zes) gingen er drie naar Ans, van de zes gouden dukaten vijf, van de zilveren kandelaars twee, van de tapijten vier, van de aandelen Philips alle zes, van de Unilevers twee, enzovoort enzovoort. De kans dat Ans van één van de 100 kavels nul krijgt is geen 1,6% maar 79%. Nog steeds zes schilderijen voor Hans, maar fraude is onwaarschijnlijk.
    Het wordt wéér anders als Ans een oude email ontdekt van Hans aan zijn vrouw: “Die schilderijen zijn Rembrandts, die pak ik, Ans mag de rest hebben”. Dan wordt fraude weer aannemelijk.
    In de wetenschap is het moeilijker uit te maken wat toeval is dan in dit voorbeeld, maar het principe is hetzelfde. Mechanische toepassing van de kansberekening levert alleen schijnzekerheden.

    Prof. dr Martijn B. Katan

  4. a.uyttenbroek zegt:

    Het lijkt mij dat de wagons met hop toch redelijk homogeen moeten zijn. Als er laagvorming bestaat, bv doordat er verschillende hopvelden na elkaar werden geladen, wordt het al ras knap ingewikkeld volgens mij. En zijn er heel veel monsters nodig, eerst om de laag structuur vast te stellen en dan om de significante steekproefgrootte per laag te vinden.

Reageren op dit bericht is niet meer mogelijk.