a. Inleiding
Enkelvoudige selectietests zijn tests met een dichotome uitkomst: er wordt wel of niet aan de eisen van een criterium voldaan[12], zoals te snel gereden, diagnose borstkanker, doping gebruikt, et cetera. In de vorige lessen zagen we dat perfecte (doping)tests niet bestaan, zodat er onvermijdelijk foute beslissingen ontstaan. Die moeten echter tot een minimum worden beperkt.
De signaaldetectietheorie laat zien welke fouten kunnen ontstaan en hoe we die kunnen beïnvloeden. Naast het criterium zijn er dan vier belangrijke variabelen, die we bij dopingtests kunnen omschrijven als:
1) De geobserveerde score, de uitkomst van de test.
2) De werkelijke score, de werkelijke waarde.
3) De kritische testscore, de grenswaarde op basis waarvan wordt beslist of de geobserveerde score wel of niet aan het criterium voldoet.
4) De kritische criteriumscore, de grenswaarde die bepaald of werkelijk aan het criterium is voldaan.
Ter illustratie een snelheidscontrole waar 80 km/uur is toegestaan (kritische criteriumscore). Snelheden boven de 83 km/uur (de kritische testscore) worden bekeurd voor te snel rijden (het criterium). Een auto zou volgens de meetapparatuur 83 km/uur rijden (geobserveerde score). Dat is boven de kritische testscore zodat de automobilist wordt bekeurd. De auto reed echter 79 km/uur (de werkelijke score), zodat niet aan de kritische criteriumscore werd voldaan (sneller dan 80 km/uur). De imperfectie van de meetapparatuur, waardoor die 4 km/uur te hoog aangaf, leidde tot een foute beslissing.
We zagen al dat perfecte tests niet bestaan, zodat er, net als in het voorbeeld van de snelheidscontrole, altijd foute beslissingen gemaakt worden en meer naarmate de betrouwbaarheid en/of de validiteit van de test lager is. Dat maakt het oordeel te snel rijden, borstkanker of doping gebruikt twijfelachtig. We bespreken de consequenties van die fouten aan de hand van de signaaldetectietheorie, die van cruciaal belang is bij de interpretatie van de testresultaten. Brouwer[4] beschreef dit voor dopingtests.
b. Signaaldetectietheorie
We zagen dat dopingtests enkelvoudige (dichotome) selectietests zijn, waarin wordt beslist of wel of niet aan de eisen van het criterium wordt voldaan: wel/geen doping gebruikt. Omdat perfecte tests niet bestaan, is het verschil tussen de geobserveerde en werkelijke score van belang (in het eerdergenoemde snelheidscontrolevoorbeeld respectievelijk 83 en 79 km/uur). Dat verschil kan tot foute beslissingen leiden. Er zijn dan vier mogelijke uitkomsten (zie figuur 4-1).
A. Negatief getest en geen doping gebruikt (correct negatief) – schoon (groen).
B. Negatief getest, maar wel doping gebruikt (vals negatief) – niet gepakt (rood).
C. Positief getest, wel doping gebruikt (correct positief) – terecht gepakt (groen).
D. Positief getest, geen doping gebruikt (vals positief) – valse beschuldiging (rood).
Figuur 4-1. Beslissingskwadranten van de signaal-detectietheorie (naar Drenth & Sijtsma, 1990). 12 testresultaten, 7 juiste (5 negatief en 2 positief) en 5 valse (3 negatief en 2 positief).
Een voorbeeld (Figuur 4-1): 12 sporters zijn getest op dopingmiddel X. Verticaal (y-as) is de dichotome werkelijke score uitgezet. Vijf sporters (1 t/m 5, rood) hebben middel X gebruikt en voldoen daarmee aan de kritische criteriumscore: doping gebruikt. Zeven atleten (6 t/m 12, groen) hebben geen doping gebruikt en voldoen dus niet aan de kritische criteriumscore. Horizontaal zijn de testscores uitgezet, die variëren van ca. 38 tot 57. De kritische testscore is 50, zodat scores vanaf 50 voldoen aan de eisen van het criterium en dus worden aangemerkt als ‘doping gebruikt’.
Dit leidt tot het volgende resultaat. Vier sporters (4, 5, 11 en 12) scoren hoger dan de kritische testscore en wordt aangemerkt als dopinggebruiker. Twee atleten (11 en 12) gebruikten geen doping en zijn dus vals positieven, hun positieve testscores zijn ontstaan uit meetfouten. Er zijn dus twee gebruikers gedetecteerd en twee vals beschuldigd. Drie gebruikers hebben geluk (1, 2 en 3). Om meer gebruikers op te sporen zijn er twee mogelijkheden:
1. Het verbeteren van de validiteit en betrouwbaarheid van de test, waardoor het aantal fouten afneemt. Dat vergt vrijwel altijd langdurig en kostbaar wetenschappelijk onderzoek en is op korte termijn vrijwel nooit te realiseren, én perfectie bestaat niet.
2. Om op korte termijn toch scherper te kunnen beslissen kan de kritische testscore verlaagd worden, waardoor meer gebruikers worden opgespoord.
Het verlagen van de kritische testscore heeft echter consequenties. Bij een grenswaarde van 45 sporen we vier en bij 40 zelfs alle vijf gebruikers op. Dat gaat echter onverbrekelijk samen met meer valse beschuldigingen (vals positieven). Bij een kritische testscore van 40 worden in dit voorbeeld zes van de zeven niet-gebruikers (7 t/m 12) vals beschuldigd. Als we in dopingzaken een kritische testscore van 0 (nul) hanteren sporen we 100% zeker alle gebruikers van middel X op, maar worden tevens alle niet-gebruikers vals beschuldigd voor dopinggebruik.
Om valse beschuldigingen te vermijden moet de kritische testscore omhoog, maar dat gaat dan onvermijdelijk samen met minder gedetecteerde gebruikers. Bij een kritische grenswaarde van 55, zijn er geen valse beschuldigingen meer, maar worden ook vier van de vijf gebruikers niet opgemerkt. Als we de kritische testscore gelijk maken aan de maximaal haalbare score, wordt niemand vals beschuldigd voor het gebruik van middel X, maar wordt ook geen enkele gebruiker ‘gepakt’.
c. Consequenties in de praktijk
De betrouwbaarheid en validiteit van een test zijn indicatoren voor de kwaliteit van die test en daarmee voor de te verwachten kans op foute resultaten. Door het verschuiven van de kritische testscore kunnen we bepalen in welke mate die fouten als vals negatief of vals positief worden beoordeeld. De keuze voor de juiste kritische testscore is afhankelijk van het doel van de test.
Bijvoorbeeld bij borstkankercontroles streven we naar een minimum aan vals negatieve fouten, zodat daar zeer lage kritische testscores worden gehanteerd. Dat gaat echter onvermijdelijk samen met relatief veel positieve fouten en dat is heel vervelend voor vrouwen die met zo’n vals positieve diagnose voor borstkanker geconfronteerd worden. Maar vals negatieve fouten kunnen hier catastrofaal zijn, als zich later alsnog borstkanker openbaart en het mogelijk te laat is.
De website van Borstkankervereniging Nederland[2] geeft hier cijfers voor. Per 1000 gecontroleerde vrouwen ontstaan 20 foute diagnoses (2%)[2]. Daarvan zijn er ‘slecht’ 2 vals negatief en 18 vals positief. Dus bij 2 op de 1000 vrouwen wordt de borstkanker niet ontdekt, terwijl 18 op de 1000 vrouwen onterecht het medisch circuit ingaan. Door de zeer lage kritische testscores ontstaan er in verhouding veel vals positieven in vergelijking met het aantal vals negatieven (18:2).
Om te vermijden dat mensen onschuldig in het gevang komen, streeft het strafrecht, waarin de rechtszaak de test is, juist naar zo weinig mogelijk vals positieven. Daarom veroordeelt de rechter pas als schuld volgens hem wettig en overtuigend bewezen is (hoge kritische testscore). Daardoor gaan er altijd schuldige verdachten vrijuit. Desondanks zullen er ook altijd onschuldigen in de cel belanden. Maar in een rechtstaat moeten we streven naar een minimum van dergelijke juridische missers.
In dopingzaken spelen vals negatieve uitkomsten (wel gebruikt/niet gepakt) nauwelijks een rol. Buiten de niet gepakte gebruiker weet niemand dat. Een vals positieve beslissing leidt echter tot een valse beschuldiging van dopinggebruik met alle sportieve, financiële, maatschappelijke en psychosociale consequenties van dien en die zijn immens. Om dergelijke fouten zoveel mogelijk te vermijden zijn, net als in het strafrecht, realistisch hoge kritische testscore vereist.
In de Contador-case werd deze Spaanse wielrenner voor doping veroordeeld op basis van een extreem lage hoeveelheid clenbuterol in zijn urine (50 picogram per liter = 0,000000000050 gr/l), dat is bijna nul. Deze casus laat zien dat de antidopingwereld extreem lage kritische testscores hanteert, terwijl daar, net als in het strafrecht, realistisch hoge kritische testscores vereist zijn.
Die lage kritische testscores zouden nodig zijn om voldoende dopinggebruikers op te sporen, aldus de antidoping community. Ons borstkanker voorbeeld liet zien dat dat onverbrekelijk samengaat met in verhouding zeer veel valse beschuldigingen. In haar streven naar een 100% dopingvrijesport lijkt de antidoping beweging dit voor lief te nemen, ondanks dat één valse dopingbeschuldiging momenteel desastreus is voor de gehele carrière van een atleet. Les 6 laat zien dat bij een carrièrebreed perspectief van topatleten de kans op zo’n valse beschuldiging aanzienlijk is.