Hoe funest is zelf-selectie voor opinieonderzoek?

Photo by Celpax on Unsplash

Eerder deze maand schreef ik een column in NRC over opiniepanels waarvoor deelnemers zich zelf aanmelden en enquêtes die via social media verspreid worden. ‘Waardeloze enquêtes’ was de kop.

Opinieonderzoek is ‘waardevol, niet waardeloos’, schreven de adviseurs van het EenVandaag Opiniepanel, de hoogleraren Bethlehem, Van der Meer en Van Holsteyn, in een ingezonden brief (volledige versie).

Waardeloos en waardevol. Onze conclusies staan lijnrecht tegenover elkaar, maar over de feiten zijn we het verrassend eens. Hier zijn alle punten op een rijtje.

Niet representatief

We zijn het eens dat onderzoek met zelf-aangemelde deelnemers geen representatieve resultaten oplevert. Representatieve resultaten krijg je alleen als mensen willekeurig uitnodigd zijn én iedereen meedoet of willekeurig afhaakt. Willekeurige uitnodiging is niet voldoende. Als genodigden afhaken omdat ze geen zin of tijd hebben, wordt vrijwel elk onderzoek niet-representatief.

Toch is het verschil tussen zelf-selectie en willekeurige uitnodiging groot. Een getallen voorbeeld illustreert het verschil in response rate, het deelnamepercentage. Het deelnamepercentage is het aantal deelnemers gedeeld door het aantal genodigden.

Berekening response rate

Bij zelf-aanmelding zijn alle 18-plussers in Nederland potentiële deelnemers zijn. Iedereen mag meedoen. Het EenVandaag Opiniepanel met 70.000 leden is daarmee slechts 0,5% van wie mee had kunnen doen. Als daarvan vervolgens de helft de enquête invult is de response rate 0,25%. Was het panel aselect uitgenodigd, dan representeren de 70.000 leden de Nederlandse bevolking en is bij een zelfde deelname de response rate 50%. Een response rate van 0,25% of 50%. Zelfs als alle leden van het EenVandaag Opiniepanel de enquête invullen is de response rate maar 0,5%, dan doet 1 op de 200 Nederlanders mee. Hoger wordt het niet.

Corrigeren door weging

Als resultaten niet representatief zijn kun je ze onder twee voorwaarden representatief te maken. Ook daarover zijn we het eens. Die voorwaarden zijn helder. Als je weet 1. wie er niet meedoet én 2. wat hun antwoorden geweest zouden zijn, dan kun je doen alsof je hun antwoorden wel had en de resultaten herberekenen. Dat is ook de essentie achter de meest simpele correctie: weging.

Bij weging worden de deelnemers vergeleken met een representatief databestand, bijvoorbeeld de data van het CBS. Als 40% van de deelnemers en 50% van de Nederlanders mannen zijn dan weet je dat mannen in de steekproef ondervertegenwoordigd zijn. Bij weging wordt er dan van uit gegaan dat de niet-deelnemers hetzelfde geantwoord zouden hebben als de deelnemers. Dat is een aanname, geen feit. Door deze aanname wordt aan de twee voorwaarden voldaan.

De wegingsfactor telt dan simpel de antwoorden van de mannelijke deelnemers zwaarder en die van vrouwen minder zwaar mee in de resultaten, zodanig dat de man/vrouw-verdeling 50%/50% wordt. Is de steekproef groot genoeg, dan kun je voor meerdere factoren tegelijk corrigeren. Dan ga je er vanuit dat de niet-deelnemende getrouwde 36-jarige Friese ambtenaar hetzelfde geantwoord zou hebben als de wel-deelnemende getrouwde 36-jarige Friese ambtenaar.

Weging kan altijd gedaan worden als de percentages in de steekproef niet overeenkomen met de Nederlandse bevolking, maar dat maakt de weging nog niet succesvol. Ook de Opiniepanel adviseurs zijn hierover helder:

“Is niet aan deze twee voorwaarden voldaan is, dan kun je technisch gezien wel wegen, maar die weging is dan feitelijk niet effectief”

De hamvraag: wordt aan de voorwaarden voldaan?

Over wie er meedoen aan dit soort panelonderzoek hebben we dezelfde gedachten. In mijn column schrijf ik dat opiniepanels vooral mensen aantrekt die zin en tijd hebben en de EV-adviseurs schrijven dat de opiniepanels bestaan

“… uit personen die een peiling toevallig aantreffen op het internet, het leuk vinden om aan peilingen mee te doen, het onderwerp van de peiling interessant vinden en spontaan besluiten de vragenlijst in te vullen.”

Als dit de deelnemers kenmerkt, welke weegfactoren zijn dan geschikt om de steekproef te corrigeren? Met welk representatief databestand kun je die factoren dan vergelijken? En wat zouden de niet-deelnemers op de enquête geantwoord hebben? Hetzelfde als de deelnemers? Hoe aannemelijk is dat?

Dát is het onoverkomelijke probleem bij panelonderzoek en onderzoek via social media. Deze vragen zijn niet te beantwoorden. Ook niet bij benadering.

De Gouden Standaard

Toch worden de resultaten van het EV Opiniepanel gewogen. De adviseurs schrijven hierover:

“Desalniettemin is in een groot panel als bij EenVandaag geen enkele bevolkingsgroep van enige omvang geheel afwezig en is weging conform de zogenaamde Gouden Standaard (die een belangrijke set van weegvariabelen bevat) normaliter mogelijk.”

Het EenVandaag Opiniepanel is niet het enige onderzoek dat door zelf-selectie deelnemers werft. Onderzoekspanels zijn de standaard in peil- en marktonderzoek en die kampen allemaal met het probleem van zelf-selectie. Het expertisecentrum voor marktonderzoek MOA heeft daarom

“op basis van 100% CBS data, de Gouden Standaard ontwikkeld, een uniek ijkingsinstrument voor nationale en regionale steekproeven. Met de komst van de Gouden Standaard voor onderzoek wordt er in hele branche gebruik gemaakt van dezelfde ijkingsdata voor representatief steekproefonderzoek.”

De hele branche zijn tientallen buro’s die markt- en opinieonderzoek doen voor bedrijven en overheden. De branche maakt met de Gouden Standaard niet-representatieve steekproeven ‘representatief.’ Zouden er dan toch weegfactoren bestaan om de zelfselectie te corrigeren?

Hieronder is de lijst met weegfactoren uit de gebruikersinstructie van de Gouden Standaard (versie december 2020). De kenmerken zijn uitsluitend demografische en socioeconomische kenmerken, zoals geslacht, opleiding, etnicititeit, postcode en gezinssamenstelling. Met deze kenmerken wordt voorspeld wie er zin en tijd heeft om aan panelonderzoek deel te nemen.

Werkt dit? Nee, natuurlijk niet. Het is geen zinvolle voorspeller van wie er zal deelnemen en veronderstelt dat niet-deelnemers hetzelfde zouden antwoorden als deelnemers. Een onrealistische aanname. Ook de adviseurs laten hierover geen twijfel bestaan. Met zelf-aanmelding heb je:

“geen enkele garantie dat allerlei groepen in de samenleving in de peiling aanwezig zijn. Je mist bijvoorbeeld vooral ouderen of juist jongeren, laagopgeleiden en mensen met een migratie-achtergrond. En wat er niet in zit, kun je er ook niet in krijgen met wegen. Maar zelfs als alle groepen wel in zekere mate aanwezig zijn en je kunt wegen, dan nog moeten de weegvariabelen aan bovenstaande voorwaarden voldoen”

En dat doen de weegvariabelen niet. De weegfactoren in de Gouden Standaard zijn niet degene die je nodig hebt om een de antwoorden van de mensen die geen zin of tijd hadden mee te nemen in de resultaten. Je kunt dan de steekproef op deze kenmerken vergelijkbaar maken met de Nederlandse bevolking, maar dat maakt de resultaten nog niet van de Nederlandse bevolking. De resultaten bljven niet representatief.

Ook de adviseurs relativeren de betekenis van losse percentages. Ze betogen dat trends, veranderingen over de tijd, veel minder gevoelig zijn voor het zelfselectie-effect, maar leggen niet uit waarom. Ze verwijzen naar een onderzoek maar ook daarin de representativiteit van trends slechts een aanname, geen onderbouwd feit. De trends in de steekproef blijft een trend in een sterk geselecteerde groep van de bevolking met geen enkele garantie dat dezelfde trends gelden onder niet-deelnemers.

Zo denken linkse kiezers over een fusie (EenVandaag, 20 April 2021)

Linkse kiezers versus links-kiezende deelnemers

De adviseurs laten ook niet onvermeld dat ze de journalisten van EenVandaag regelmatig aanspreken als zij in de interpretatie van de resultaten de bocht uit vliegen. De linkse kiezer is een uitglijder die, zo lijkt het, getolereerd wordt in de titel en grafieken, zolang de tekst maar duidelijk maakt dat het om links-kiezende deelnemers gaat. De journalisten mogen niet schrijven dat de resultaten betrekking hebben op alle Nederlanders:

“Zo suggereert de kop van een bericht gebaseerd op onderzoek van EenVandaag ‘bijna de helft van ouders wil basisschoolkind niet laten testen op corona’ dat dit de mening van bijna de helft van alle ouders is. Maar in het bericht zelf blijkt dat ‘Vier van de tien ondervraagde ouders (43 procent) zeggen hun zoon of dochter niet of waarschijnlijk niet te laten testen’ (onze cursivering). Dat is een subtiel maar betekenisvol verschil.”

De adviseurs staan toe dat

“Eventueel, na weging, gezegd [mag] worden dat het beeld representatief is naar geslacht, leeftijd, opleiding, regio en dergelijke”,

maar dat gaat mij te ver. Ook na weging is het beeld niet representatief. De verdeling van die kenmerken komt weliswaar overeen met die van de Nederlandse bevolking, maar de antwoorden niet. De antwoorden van de niet-deelnemers blijven ontbreken. Deze tekst, die onder elk nieuwsbericht van het panel te lezen is, wekt de suggestie dat de resultaten representatief zijn. Dat is ronduit misleidend.

Tot slot

Wie mij column tot het einde gelezen heeft zag onderaan een link naar eerder gepubliceerde artikelen in het NRC. Mijn column bleek al eens geschreven. Twaalf jaar geleden schreef Van Holsteyn, één van de adviseurs, een opinie over hetzelfde onderwerp met dezelfde conclusies:

“ De opiniepeilingen van De Hond zijn niet gebaseerd op goede, representatieve steekproeven. Daarom moet er geen grote waarde aan worden toegekend.”

“De stap van steekproef naar populatie, van Peil.nl naar ‘de’ Nederlandse kiezers, is een wilde, onverantwoorde sprong. De claim van representativiteit … is eerder een staaltje bluf dan een positie die wetenschappelijk gestut is.”

“Het betreft een probleem dat inherent is aan peilingen die gebaseerd zijn op zelfselectie van deelnemers. En zo goed als onoplosbaar.”

“Hij probeert zijn panel op een niet al te doorzichtige wijze representatief te maken en maakt subgroepen van zijn totale bestand van deelnemers. Dat is niet per se onjuist of onverantwoord. Maar met al zijn in- en kunstgrepen kan De Hond de weeffout die onvermijdelijk bestaat, nooit werkelijk corrigeren. De fraaie schillen kunnen de bedorven kern niet compenseren.”

“De deelnemers aan zijn onderzoek … kunnen niet worden gezien als een groep kiesgerechtigden op basis van wie verantwoorde uitspraken over de Nederlanders en het electoraat worden gedaan. Dat is jammer, maar het is niet anders.”

En zo is het. Zelf-selectie is funest voor opinieonderzoek. Het zorgt voor een zo goed als onoplosbaar probleem. Waarom ‘zo goed als’? Omdat het probleem op te lossen is als als je goed kunt voorspellen wie er niet meegedaan heeft en weet wat hun antwoorden geweest zouden zijn — de twee voorwaarden. In de praktijk is dit echter onmogelijk. De resultaten van panelonderzoek zijn niet representatief en onbetrouwbaar.

Dit artikel wordt vervolgd. Ik ben nieuwsgierig geraakt naar de manier en mate waarin overheden gebruik maken van onderzoeksresultaten uit opiniepanels. Volg mij hier of op Twitter voor updates.

Professor of epidemiology | Emory University, Atlanta USA | Writes about (genetic) prediction, critical thinking, evidence, and lack thereof.

Get the Medium app

A button that says 'Download on the App Store', and if clicked it will lead you to the iOS App store
A button that says 'Get it on, Google Play', and if clicked it will lead you to the Google Play store