HYPOTHESE TOETSEN (Significantie , p-waarden)

KORTE EN DUIDELIJKE TIPS VOOR ONDERZOEKSOPDRACHTEN EN -TENTAMENSTOF (HBO/MBO+)

In dit artikel (stap voor stap uitleg over de Hypothese toets)
Wat bedoelen ze met p=probability? Was is de Nulhypothese toets.
Een voorbeeldonderzoek met bewijs via toetsing.
Wat doet SPSS eigenlijk om de significantie te berekenen? Significantie wat is dat? Betekent p het zelfde als sig.? Wat kan je concluderen als iets significant is? Welke waarden kan p hebben? Oefenopgaven met antwoorden.
Advies: Niet blind vertrouwen op de o,o5 grenswaarde van p.

p-waarden, significantie en het bewijs 
Op tentamens wordt vaak gevraagd om de juiste conclusie te trekken over een p-waarde.

Die p staat voor probability (=kans). Een p waarde .452 betekent de kans dat … is 0.452 (0,452). Zo’n p-waarde wordt berekend met behulp van software. Maar, wat is p? …Het is de kans op…, ja, .. op wat eigenlijk?

De p-waarde en het leveren van een bewijs.
Een onderzoeker kan veel tijd steken in het verzamelen van gegevens en daaruit dan conclusies trekken en aanbevelingen schrijven voor de opdrachtgever. Maar een onderzoeker moet ook BEWIJZEN wat hij opschrijft. Het is niet zo dat opdrachtgevers de onderzoeker zonder meer geloven. Wanneer er in het bedrijf verschillende meningen zijn is het belangrijk dat de onderzoeker zijn vondsten goed kan beargumenteren. Dat bewijs kan vaak geleverd worden door berekeningen uit te voeren.

Meneer Fisher en zijn oplossing voor ‘bewijs’ (nulhypothese test=toets)
Ronald Fisher (1925-1991) bedacht een manier om met getallen een bewijs te leveren. Het gaat er volgens Fisher om dat de onderzoeker moet aantonen dat zijn onderzoeksresultaten niet TOEVALLIG zijn maar dat de uitkomsten direct te maken hebben met het probleem (de onderzoeksvraag).

Een voorbeeldonderzoek en bewijs.
Een onderzoek begint met het opstellen van een onderzoeksvraag (probleemstelling). De onderzoeksvraag is vaak ingewikkeld (dit is logisch, want anders was er geen onderzoek nodig). De onderzoeker verdeelt het probleem vervolgens in stukjes (bijvoorbeeld door een aantal enquêtevragen op te stellen). De vragen formuleert hij zo dat het gaat om simpele vragen (bijvoorbeeld ja/nee-vragen). Door de antwoorden op de vragen te combineren komt hij tot een antwoord op de probleemstelling.

Een voorbeeld van een bewijs.
Bekijk de volgende probleemstelling: ‘In hoeverre zijn vrouwen met kinderen gelukkiger dan vrouwen zonder kinderen?’

Probeer eens of je zelf een onderzoek kan bedenken waarmee je kan BEWIJZEN of vrouwen met kinderen gelukkiger (of ongelukkiger zijn) dan andere vrouwen….

Onderzoekopzet 1: Je gaat vrouwen observeren en kijkt of vrouwen met kinderen vaker verdrietig kijken dan vrouwen zonder kinderen. Je vergelijkt dus het gedrag van vrouwen met kinderen met het gedrag van vrouwen zonder kinderen…
(In dit geval doe je dat dan door ‘gestructureerde observatie’).

Onderzoeksopzet 2: De onderzoeker kan het onderzoek ook opzetten met behulp van een enquête. De hoofdvraag wordt verdeeld in 3 eenvoudige enquête vragen:
a) Bent u vrouw? (ja/nee)
b) Heeft u kinderen? (ja/nee)
c) Bent u gelukkig? Antw.: zeer ongelukkig, ongelukkig, neutraal, gelukkig, zeer gelukkig

*) ‘gelukkig’ is hier een te vaag begrip, waar de onderzoeker niet veel aan heeft maar het is slechts een voorbeeld…

Het probleem is nu vereenvoudigd tot een (getalsmatige) vergelijking: Het gaat er dus om dat de onderzoeker de antwoorden van 2 groepen vrouwen met elkaar gaat vergelijken. Indien vrouwen met kinderen vaker (zeer) gelukkig zijn dan vrouwen die geen kinderen hebben dan is bewezen dat vrouwen met kinderen zich vaker gelukkig voelen.

** Wanneer we een verschil vinden tussen de groepen dan concluderen we dat dat komt door de kinderen… opnieuw een ‘aanname’, waar de onderzoeker problemen mee kan krijgen maar het is slechts een voorbeeld… (Er wordt hier aangenomen dat kinderen en geluk (altijd) met elkaar verband houden. Dit heet ‘causaliteit’ ,denk aan het Engels ’cause’ =oorzaak).

Wat is p en hoe wordt het berekend?
Om de p-waarde te laten berekenen voert de onderzoeker de antwoorden op de enquête in, in SPSS. De onderzoeker geeft SPSS vervolgens de opdracht om p te berekenen.

Wat doet SPSS precies om de p-waarde te berekenen? (uitwerking van bovenstaand voorbeeld 2)
-SPSS selecteert eerst de enquêtes van respondenten die op vraag a het antwoord ‘ja’ hebben gegeven.
-SPSS verdeelt deze enquêtes in een groep die vraag 2 met ja heeft beantwoord en een groep die vraag 2 met nee heeft beantwoord.
-SPSS telt van beide groepen het aantal dat op vraag 3 zeer gelukkig heeft gegeven, het antwoord gelukkig heeft gegeven, neutraal etc..
-SPSS berekent van elke groep de gemiddeld ‘puntenscore’ voor de vraag ‘bent u gelukkig?’.
(SPSS gebruikt daarvoor de antwoorden: zeer ongelukkig=1 punt; ongelukkig = 2 punten etc.)
-SPSS vergelijkt de gemiddelde score van beide groepen.
-SPSS kijkt ook naar de variatie in de opgegeven antwoorden (variantie, standaarddeviatie).
-SPSS berekent het verschil tussen de gemiddelden van de groepen.
-SPSS bepaalt of het verschil groot genoeg is (lees: significant*) om te concluderen dat de antwoorden van beide groepen van elkaar verschillen.

*) Significant betekent dat de berekening toont dat het verschil tussen twee groepen getallen groot genoeg is om het te zien als een ECHT VERSCHIL. (Een verschil dat zo groot is dat het iets betekent / ‘significant’=’van betekenis’). Als het niet-significant is dan is het verschil tussen de antwoorden van de twee groepen zo klein dat het ook TOEVAL kan zijn. SPSS zegt dan eigenlijk : wanneer je nog wat meer enquêtes zou afnemen zal er waarschijnlijk helemaal geen verschil zijn tussen de groepen.

De p-waarde
Wat kan er nu dus het geval zijn:
1) Er IS EEN VERSCHIL tussen de groepen.  (De antwoorden van vrouwen met kinderen en antwoorden van vrouwen zonder kinderen zijn verschillend). Er dan een SIGNIFICANT verschil tussen de twee groepen.
2) Er is geen duidelijk verschil. Het verschil in de antwoorden tussen de twee groepen is niet groot genoeg. Er is GEEN SIGNIFICANT verschil.
(Er is dus wel een verschil maar het verschil is zo klein dat je denkt ‘als ik nog een paar andere vrouwen had geenqueteerd was er misschien geen verschil meer tussen de groepen’)

p=Sig.
SPSS presenteert de uitkomst van de berekening in de vorm van een
waarde voor p. In het programma SPSS zien we ook wel de afkorting Sig. (Significantie).

Voorbeeld:
In dit onderzoek geeft SPSS de waarde Sig.=.0231  (=0,0231). SPSS geeft daarmee aan: De kans (P) dat het verschil tussen de groepen TOEVALLIG is, is (slechts) 0,023 is (2,3%). Met andere woorden er is een zeer grote kans (97,7%) dat er ECHT een verschil is in de antwoorden van beide groepen vrouwen.

Als er SIGNIFICANT verschil is tussen de groepen die je vergelijkt, kan je dan ook zeggen welke groep gelukkiger is en welke groep ongelukkiger?
Antw.: Nee.
Een p-waarde zegt alleen hoe groot de kans is dat het verschil tussen de twee groepen vrouwen toevallig is. Om te concluderen of vrouwen met kinderen gelukkiger zijn of juist de vrouwen zonder kinderen moet de onderzoeker naar de cijfers kijken. Als hij ziet dat van de vrouwen met kinderen 56% aangeeft gelukkig te zijn en dat 22% van de vrouwen zonder kinderen gelukkig is, dan zijn vrouwen met kinderen gelukkiger dan vrouwen zonder kinderen. En als Sig. (p) .0231 is dan is het verschil tussen de groepen (zeer waarschijnlijk) niet toevallig.

Welke waarden kan p allemaal hebben?
De p-waarde ligt altijd tussen .000 (0% kans op toeval) en 1.000 (100% kans op toeval). Als het verschil tussen de groepen vrouwen groter wordt dan wordt Sig./p dus juist kleiner.

Voorbeeld 1: Stel dat uit het onderzoek blijkt dat van de vrouwen met kinderen 22% gelukkig is en van de vrouwen zonder kinderen 25%. Dan zal de Sig./p-waarde (waarschijnlijk) in de buurt van 1.000 liggen (100%). Want het verschil tussen beide groepen is klein. De kans is dus GROOT (bijna 100%) dat het verschil tussen de groepen eigenlijk helemaal niet bestaat (maar alleen wordt veroorzaakt doordat je nog wat meer enquêtes had moeten afnemen). Het verschil kan immers veroorzaakt worden doordat je te weinig vrouwen hebt geënqueteerd of dat er toevallig wat meer gelukkige vrouwen zonder kinderen onder de deelnemers waren.

Voorbeeld 2: Stel dat uit het onderzoek blijkt dat van de vrouwen met kinderen 56% gelukkig is en van de vrouwen zonder kinderen 5%. Dan zal de Sig./p-waarde dicht bij .000 liggen. Want de kans dat zo’n groot verschil tussen de groepen vrouwen TOEVALLIG is, is erg klein. (Ook wanneer je meer enquêtes afneemt zal er wel altijd een verschil tussen de groepen blijven).

Wat doen we nu als de Sig./p waarde ergens tussen die .000 en 1.000 ligt?
Omdat Sig./ p zo belangrijk is hebben onderzoekers afspraken gemaakt over de grenswaarden van p. (Waar ligt de grens). Wanneer de Sig./p-waarde kleiner is dan .05 (5% of 0,05) dan vinden we dat een verschil in antwoorden tussen twee groepen GEEN TOEVAL* is. Anders gezegd: De kans dat het verschil in antwoorden TOEVALLIG is, is te verwaarlozen.
Je mag dan als onderzoeker concluderen: Berekening geeft aan dat er een significant verschil is tussen vrouwen met kinderen en vrouwen zonder kinderen…
(*geen toeval: ook al is er dus nog steeds een heel kleine kans dat er bij het afnemen van meer enquêtes een andere uitkomst komt. Immers Sig. / p is geen 000 of 0%).

Onderzoekers hebben ook afgesproken dat wanneer de Sig. /p-waarde groter is dan .05 (5% of 0,05) dat we dan NIET UITSLUITEN dat het verschil tussen de groepen TOEVALLIG is. (Dus wanneer je meer vrouwen enquêteert komt er misschien uit dat de antwoorden van de vrouwen helemaal niet verschillen). We zeggen dan ‘het verschil is NIET SIGNIFICANT’.

Oefenopgave
Er is marktonderzoek gedaan onder consumenten. Een van de enquêtevragen was ‘In hoeverre kent u het merk Probabio babyshampoo?’ De vraag werd gesteld aan 1200 jonge moeders en 800 jonge vaders. Uit het onderzoek komt dat 25% van de vrouwen het merk Probabio (zeer) goed kent en 21% van de mannen. Is dit verschil groot genoeg om te concluderen dat het merk Probabio beter bekend is bij jonge vrouwen dan bij jonge mannen?
De onderzoeker voert de antwoorden van de mannen en de vrouwen in, in SPSS en geeft opdracht om een berekening uit te voeren.  SPSS zegt het volgende:
CHI2=111,40 , Sig. / p=.0545.

Vragen
1) Wat betekent vrouwen 25% en mannen 21%?
2) Wat betekent CHI2?
3) Wat betekent Sig. / p=.0545?
4) Wat kan je zeggen over de bekendheid van het merk onder mannen en vrouwen?
5) De marketingmanager heeft als stelling: De bekendheid van het merkt Probabio is groter onder vrouwen dan onder mannen. Ben je het met hem eens? Licht je antwoord toe.

Antwoorden
1) Dat betekent dat 25% van de vrouwelijke deelnemers aan de enquête het merk Probabio (zeer) goed kent en dat 21% van de mannelijke deelnemers het merk (zeer) goed kent. Maar het is de uitkomst van een enquête dus niet alle mannen en alle vrouwen in Nederland hebben meegedaan. Het verschil in procenten kan dus toevallig zijn. (Als er meer mensen mee zouden doen kunnen de percentages nog veranderen…)

2) CHI2 is de naam van de berekening (toets). Er zijn veel verschillende berekeningen. Dat hangt ervan af of SPSS een verschil moet berekenen tussen getallen of tussen percentages; en ook of er heel veel enquêtes zijn of erg weinig en nog veel meer voorwaarden. In dit geval heeft SPSS de CHi2-toets gebruikt (Uitspreken als GIE-kwadraat=Nederlands of als Sjie-skwair=Engels/VS).

3) Sig. / p=.0545 is hetzelfde als p=0,0545 en dat is het zelfde als p=5,45%. Het betekent dat SPSS heeft berekend dat bij deze uitkomst DE KANS (P robability) dat het verschil in bekendheid (25% vrouwen en 21% mannen) TOEVALLIG komt door het aantal deelnemers aan de enquête 5,45% is.

4) Er is een afspraak tussen onderzoekers dat de kans op een TOEVALLIG verschil niet te groot mag zijn. De afspraak is dat Sig. / p (de kans) niet groter mag zijn dan 5% (.05 of 0,05). In dit geval is p WEL groter dan 5% (namelijk 5,45%). Onderzoekers vinden dan dat er een TE GROTE KANS is dat het verschil tussen 25% en 21% TOEVALLIG is. Dus we mogen niet zeggen dat vrouwen het merk beter kennen dan mannen. (Misschien kennen vrouwen het merk wel beter maar de onderzoeker heeft het met deze enquete NIET KUNNEN BEWIJZEN).

5) De stelling (hypothese) van de manager is NIET BEWEZEN. Er is wel een verschil gevonden in bekendheid maar SPSS zegt dat het verschil dat gevonden is in de afgenomen enquetes niet groot genoeg is (niet significant) om te kunnen concluderen dat vrouwen het merk beter kennen dan mannen. (SPSS zegt eigenlijk: misschien moet je nog wat meer enquetes afnemen).

SPSS berekeningen / ‘toetsen’
De CHI2 is een van de vele berekeningen die door SPSS uitgevoerd kunnen worden. De t-toets is ook een veel gebruikte toets. En zo zijn er nog veel meer. Welke berekening er nodig is hangt af van de eigenschappen van de getallen (soort enquêtevraag, meetniveau’s, verdeling, spreiding).

Niet blind vertrouwen op de 0,05 grens.
Wanneer Sig. / p kleiner is dan .05 / 0,05 is de kans dus nog geen 0! Er is dus nog steeds een kans (probability) dat er geen verschil is tussen de antwoorden van de twee groepen. Zelfs bij een Sig. / p-waarde van 0,001 is er dus een (heel kleine) kans dat er helemaal geen verschil is in de antwoorden van de twee groepen. Onderzoekers hebben alleen om praktische redenen (anders BLIJF je onderzoeken..) de afspraak gemaakt dat we bij een p-waarde kleiner dan 0,05 DE KANS erg klein vinden dat het verschil TOEVALLIG is.
(Je mag dus bij een Sig. van 0,04 zeggen dat er SIGNIFICANT verschil is tussen de antwoorden. Maar hou in je achterhoofd dat er nog steeds een kans is dat de antwoorden van mannen en vrouwen NIET verschillen).

The Research Company BV is een full-service onderzoeksbureau dat u kunt inschakelen voor onderzoekswerkzaamheden. De educatieve afdeling van Research Company deelt kennis en ervaring met studenten. Zij profiteren van de duidelijke artikelen over onderzoekstheorie, methoden en technieken en gratis hulpmiddelen zoals de gratis software voor online enquêteren en Rekenhulp om steekproefomvang, nauwkeurigheid en betrouwbaarheid te berekenen.

(Er is veel zorg besteed aan deze uitleg. Het is begrijpelijk geschreven met duidelijk voorbeelden. Maandelijks lezen 4000 HBO (en WO) studenten een of meer van de artikelen van Research Company. Als je geholpen bent met dit artikel dan kun je andere studenten ook een beetje helpen door het artikel te delen in je netwerk).