3 Verdelingstoetsen met SPSS PDF

Title 3 Verdelingstoetsen met SPSS
Course Statistiek
Institution Vrije Universiteit Brussel
Pages 16
File Size 701.5 KB
File Type PDF
Total Downloads 91
Total Views 141

Summary

WPO SPSS...


Description

Hoofdstuk 3

Verdelingstoetsen (aanpassingstoetsen) 3.1

Introductie

In dit hoofdstuk worden de verdelingstoetsen in SPSS bestudeerd. Soms spreekt men in dit verband ook van aanpassingstoetsen. In het algemeen toetst men of de populatieverdeling van een bepaalde veranderlijke X overeenkomt met een gehypothetiseerde verdeling V0 :  H0 : X ∼ V0 H1 : X ∼ V1 Hiertoe neemt men een aselecte steekproef ter grootte n en gaat men na of de waargenomen verdeling W (zie ook ‘Statistiek I’ of ‘Meetschalen en beschrijvende statistiek’) kan aangepast worden aan de theoretische populatieverdeling V0 . Deze V0 betreft in vele gevallen een bekende theoretische verdeling zoals de uniforme verdeling, de binomiale verdeling, de Poisson verdeling of de normale verdeling. Hiervoor bestaan verscheidene toetsen in SPSS. In de praktijk wordt voornamelijk gebruik gemaakt van de Chi-Square Test of de One Sample Kolmogorov Smirnov Test. In de ene dan wel de andere situatie geniet een bepaalde toets de voorkeur, zoals verder zal blijken uit de tekst. Beide statistische toetsen worden in een aparte sectie bestudeerd. Ook hier zullen de toepassingsvoorwaarden benadrukt worden doorheen de tekst.

36

3.2

Chi-kwadraat Toetsen

In deze sectie worden de Chi-kwadraat verdelingstoetsen in SPSS besproken. Dit betreft een niet-parametrische toets waarmee bedoeld wordt dat er wat betreft de populatieverdeling van X geen eisen gesteld worden. Dit maakt dus dat deze toets alomtegenwoordig is in wetenschappelijke werken en rapporten. De toets wordt vaak gebruikt om na te gaan of de populatieverdeling van X een uniforme (homogene) verdeling betreft. Het is echter mogelijk hier (in beperkte mate) een eigen theoretische verdeling V0 te specifi¨eren (zie 3.2.3). In het voorbeeld zal getoetst worden of in elke afdeling van het bedrijf X evenveel personeelsleden tewerk gesteld zijn. Men noteert:  H0 : X ∼ V0 H1 : X ∼ V1 Hierbij stelt V0 in dit geval de uniforme (of homogene) verdeling voor. Het betreft hier een veranderlijke gemeten op nominale meetschaal, opgedeeld in k = 7 waarnemingsklassen. SPSS veronderstelt dat er voor elke klasse uit de populatie waarnemingen beschikbaar zijn. Dit geldt in het voorbeeld. Het bestuderen van een grafische voorstelling (histogram) doet vermoeden dat de waargenomen verdeling uit de steekproef geen realisatie zal zijn van de uniforme verdeling. Bijna 25% van de steekproefelementen werkte in de afdeling marketing. Dit kan echter te wijten zijn door toevalseffecten.

37

Vooraleer verder te gaan worden de toepassingsvoorwaarden samengevat.

3.2.1

Toepassingsvoorwaarden

Bij het uitvoeren van de Chi-kwadraat verdelingstoets wordt verondersteld dat de onderzochte variabele X opgedeeld is in k klassen. De gegevens zelf in deze klassen mogen gemeten zijn op nominaal, ordinaal, interval of ratio meetschaal. Deze toets is geschikt voor alle types veranderlijken die men wenst te bestuderen, eert in SPSS. De specifieke toepassingszolang men de waarnemingsklassen defini¨ voorwaarden eigen aan de toets worden mee afgeprint in de output. Dit wordt dan ook besproken bij de interpretatie van de output (zie 3.2.2). Het is dus aan de gebruiker om uit te maken of de resultaten zinvol zijn (en interpreteerbaar) of niet.

3.2.2

Toets op Uniforme Verdelingen

Vaak wordt er in de praktijk nagegaan of een waargenomen verdeling W een realisatie kan zijn van de uniforme (of homogene) theoretische verdeling. Een uniforme verdeling is de verdeling waarbij elke waarde xi van de populatie een zelfde kans pi heeft op voorkomen (discreet) of waarbij de verdelingsfunctie fX (x) horizontaal loopt voor elke waarde x van de populatie in beschouwing (continu). Daar het aantal klassen k eindig is, wordt door SPSS aldus de discrete definitie gehanteerd. Om de Chi-Square Test (voor uniforme verdelingen) uit te voeren doet men: Analyze → Nonparametric Tests → Legacy Dialogs →Chi-Square

38

Onder Test Variable List plaatst men het onderzochte kenmerk X waarvan men wenst te toetsten op de populatieverdeling uniform verondersteld kan worden. Hieronder kan men verscheidene veranderlijken plaatsen, dan voert SPSS de toets uit voor elke variabele apart uit de lijst. In het voorbeeld wordt getoetst of de bedrijfsafdeling X een veronderstelde verdeling V0 volgt. Bij de hoofding Expected Range is de standaardinstelling Get from data. Hiermee bedoelt SPSS dat alle waarden die voorkomen in de populatieverdeling opgenomen staan in het SPSS bestand. Dit is natuurlijk niet altijd het geval in de praktijk, in dit geval kiest men de optie Use specified range om ook rekening te houden met waarden die niet waargenomen zijn, maar theoretisch wel mogelijk zijn. Bij deze laatste optie wordt uitgegaan van numerieke (gehercodeerde) waarden. Er dient immers een ondergrens (Lower) en bovengrens (Upper) opgegeven te worden. Het is heel belangrijk dat bij het uitvoeren van de toets alle mogelijke theoretische waarden opgenomen staan (ook indien deze niet zijn waargenomen). Om te toetsen of X de homogene verdeling V0 volgt, dient de optie All categories equal aangevinkt te staan. Dit is de standaardinstelling in SPSS. Door op Exact te klikken is het mogelijk de berekeningswijze van de p-waarde te specifi¨eren. De standaardinstelling is asymptotic (voor grote steekproeven n ≥ 100). Indien n < 100 is het echter belangrijk de exacte significantiewaarde te laten berekenen met SPSS. Indien n → ∞ convergeert de asymptotische p-waarde naar de exacte p-waarde. Voor voldoende grote steekproeven zijn beiden dan ook equivalent. Indien het aantal waarnemingen n uitzonderlijk groot is kan het berekenen van de exacte p-waarde veel tijd in beslag nemen, daar waar de asymptotische waarde meteen afgeprint kan worden.

39

In het voorbeeld onder beschouwing opteert men voor de exacte p-waarde want hier n < 100. Het voordeel van deze methode is dat de asymptotische p-waarde tevens wordt afgeprint in de output. Het eerste outputgedeelte van de Chi-Square Test is als volgt:

Bovenaan staat het onderzochte kenmerk X (afdeling in het bedrijf). Vervolgens wordt een absolute frequentietabel afgedrukt in de output met daarin alle mogelijke waarden xi die in de populatie kunnen voorkomen en hun waargenomen frequentie (Observed N) Fi . Zo zijn er in deze steekproef 4 bestuursleden opgenomen. De steekproefgrootte n wordt afgelezen bij Total: 65. Naast de waargenomen absolute frequenties staan de verwachte frequenties (Expected N) Fi0 indien de populatieverdeling wel degelijk V0 betreft. Onder Residual vindt men de afwijkingen tussen tussen de waargenomen en verwachte frequenties Fi − Fi 0. Zo is het waargenomen aantal personeelsleden in de afdeling marketing groter dan men zou verwachten indien V0 waar zou zijn. Het tweede outputgedeelte vat de Chi-Square Test samen:

De berekende χ2w -waarde bedraagt 10.492. Dit berekent men (zie theorie) als: χ2w =

k X (Fi − F 0 )2 i

Fi0

i=1

40

Het aantal vrijheidsgraden df van de Chi-kwadraat verdeling bedraagt k − p − 1. In dit geval df = 6 omdat er 7 klassen zijn die de populatie opdelen en p = 0. Er werden geen parameters geschat aan de hand van de steekproef. Daar men te maken heeft met een kleine steekproef (n < 100) dient men de bijhorende p-waarde af te lezen bij Exact Sig. Deze bedraagt in het bestudeerde voorbeeld 0.107. Merk op dat dit dankzij de steekproefgrootte n = 65 in de buurt ligt van de Asymp.Sig. Dit leidt tot het aanvaarden van de nulhypothese (α = 5%). Aan de hand van de gehanteerde steekproef en bijhorende verdeling W kan de uniforme verdeling niet weerlegd worden. In tegenstelling tot toetsen op het gemiddelde print SPSS informatie wat betreft de toepassingsvoorwaarden af in de output. De belangrijkste voorwaarde voor de Chi-Square Test houdt in dat minstens 80% der Fi0 ≥ 5. In het voorbeeld is deze toepassingsvoorwaarde voldaan. De laagste verwachte frequentie is 9.3.

3.2.3

Toets op Andere Verdelingen

De Chi-kwadraat verdelingstoets kan ook gebruikt worden om te toetsen of de populatieverdeling van een veranderlijke X overeenkomt met een zelf gekozen eerd in het dialoogvenster van de verdeling V0 . Deze verdeling wordt gedefini¨ Chi-Square Test. Veronderstel dat men wenst te toetsen of de populatieverdeling van het automerk van wagens X onderstaande theoretische verdeling volgt: Ki Geen Mercedes BMW Volkswagen Peugeot Audi Toyota Andere

pi 0.20 0.10 0.10 0.30 0.05 0.05 0.10 0.10

Het is eenvoudig mogelijk zulke verdelingen V0 te defini¨eren in SPSS. In dit voorbeeld heeft men niet voor alle theoretische waarden van X waarnemingen in het SPSS bestand opgenomen. Door toeval werd geen personeelslid met een Toyata geselecteerd, hoewel er wel mensen met deze auto rondrijden in het bedrijf. Deze staan gecodeerd als code 7 (zie data). Men dient er zich van bewust

41

te zijn dat deze waarde niet wordt opgenomen in de door SPSS opgestelde frequentietabellen. Men krijgt bijvoorbeeld volgende tabel:

Daarom kiest men in het dialoogvenster van de Chi-Square Test de optie Use specified range om dit probleem op te lossen. Onder Lower plaatst men de laagste gecodeerde waarde (0) en onder Upper de hoogste (7):

De merken van de bedrijfswagens staan in SPSS gecodeerd van 0 tot en met 7. Men dient ondubbelzinnig te weten welke code welke waarde Ki (welk automerk) voorstelt. Dit vindt men terug in het Data View tabblad (zie schermafdruk). Indien men nu de theoretische verdeling van boven wenst te toetsen, typt men deze kansen onder Values en voegt deze getallen toe (Add) aan de lijst. Het is belangrijk 42

te weten dat het eerste ingevoerde getal overeenkomt met de eerste gecodeerde klasse (0). Zo verder typt men de kansen in de tabel voor alle theoretische waarden (in de juiste volgorde). Om deze reden is het inderdaad belangrijk te weten welke waarde van de veranderlijke welke klasse Ki voorstelt. Het eerste outputgedeelte van de Chi-Square Test is nu als volgt:

Merk op dat aan de afgedrukte absolute frequentietabel een extra waarde van de populatie is toegevoegd met een waargenomen frequentie Fi = 0. SPSS verzaakt deze klasse (Toyata) te vermelden bij de klassen (Categories). Het lezen van deze tabel verloopt analoog aan deze bij toetsen op uniforme verdelingen (zie 3.2.2). Het tweede outputgedeelte van de Chi-Square Test vat de toets samen. De interpretatie verloopt analoog aan deze uit subsectie 3.2.2. Ook hier dient men te kijken naar de Exact Sig omdat n < 100. De aandachtige lezer merkt op dat een belangrijke toepassingsvoorwaarde niet voldaan is: slechts 75% van verwachte frequenties Fi0 ≥ 5. In dit geval zou men dus klassen moeten samen nemen om de resultaten te kunnen interpreteren. 43

3.3

Kolmogorov-Smirnov Toetsen

In deze sectie wordt de Kolmogorov-Smirnov verdelingstoets in SPSS besproken. Ook hier worden geen veronderstellingen gemaakt wat betreft de verdeling van het onderzochte kenmerk X. Deze toets wordt voornamelijk uitgevoerd om aan de hand van steekproef ter grootte n na te gaan of de populatieverdeling van een bepaalde veranderlijke X Poisson of normaal verdeeld kan zijn. Ook kan getoetst worden of de veranderlijke X de uniforme (of: homogene) verdeling volgt.

3.3.1

Toepassingsvoorwaarden

In deze sectie komen enkel de voorwaarden aan bod die algemeen geldig zijn bij de toets. Zo mag deze aanpassingstoets enkel toegepast worden vanaf ordinale meetschaal. Voor nominale meetschalen dient men beroep te doen op de Chikwadraat toetsen. Meer specifieke toepassingsvoorwaarden worden verder in de tekst besproken. Het is bij deze toetsen belangrijk dat de populatieparameters gespecifi¨eerd zijn door de gebruiker (zie theorie). In principe mag de nulhypothese niet aangevuld worden met steekproefparameters x en s. Men dient a priori waarden op te geven om geen vertekende resultaten te bekomen. Zie echter 3.3.5.

3.3.2

Toetsen op Poisson Verdelingen

In deze subsectie wordt volgende hypothese met SPSS getoetst:  H0 : X ∼ P (λ0 ) H1 : X ∼ V1 (...) In principe zou de gebruiker de verwachtingswaarde λ0 zelf moeten opgeven. Dit is echter bij deze toets niet standaard mogelijk. Het softwarepakket kiest x als 44

schatter. Indien de steekproefgrootte klein is (n < 30) kan de toets veel vermogen (1 − β) verliezen. Er wordt verondersteld dat de variabele X enkel niet-negatieve gehele waarden kan aannemen. Het is echter mogelijk een door de gebruiker vooropgestelde waarde λ0 in te geven via de SPSS syntax. Volgende instructie dient geformuleerd te worden in het syntaxvenster (X is de naam van de variabele waarin men ge¨ınteresseerd is, λ0 de verwachtingswaarde): NPAR TESTS K-S(POISSON,λ0 )=X /METHOD=EXACT. In het voorbeeld zal getoetst worden of het aantal dagen vakantie in 2009 van de werknemers in het bedrijf aangepast kan worden tot een Poisson verdeling met gemiddeld 20 dagen vakantie. Men schrijft:  H0 : X ∼ P (20) H1 : X ∼ V1 (...) Eerst en vooral dient de gebruiker een syntaxvenster te openen. Dit wordt niet standaard opgeroepen bij het opstarten van het softwarepakket. Om het syntaxvenster te openen gaat men in SPSS als volgt te werk: File → New → Syntax

Vervolgens schrijft men bovenstaande instructie neer in het venster waarbij men 45

vanzelfsprekend λ0 vervangt door 20 en X door vakantie2009. Om de output te bekomen klikt men op Run-All. De resultaten verschijnen in de output.

Rechts boven wordt de veranderlijke X weergegeven. De gehanteerde steekproefgrootte n leest men af bij N: 65. Bij Poisson Parameter Mean leest men de veronderstelde waarde λ0 die hier 20 bedraagt. De toetsstatistiek is hier D = 0.192 en vindt men bij Absolute. De exacte tweezijdige p-waarde vindt men bij Exact Sig.(2-tailed) en bedraagt 0.005. Rekening houdende met α = 5% verwerpt men de nulhypothese: op basis van deze steekproef kan men niet besluiten dat de populatieverdeling Poisson is met een verwachtingswaarde van 20 vakantiedagen. Indien de steekproefgroote voldoende groot is kan men als toetsstatistiek ook Z kiezen, maar hierop wordt in dit opleidingsonderdeel niet verder ingegaan.

3.3.3

Toetsen op Normale Verdelingen

Nagaan of de populatieverdeling V van een bepaalde veranderlijke X normaal is wordt statistisch getoetst aan de hand van de Kolmogorov-Smirnov toets. In SPSS is dit immers niet mogelijk met de Chi-kwadraat toetsen. In deze sectie is men dus ge¨ınteresseerd in volgende verdelingstoets:  H0 : X ∼ N (µ0 , σ0 ) H1 : X ∼ V1 (..., ...) eerde constanten. In het voorHierbij zijn µ0 en σ0 door de gebruiker gespecifi¨ beeld zal getoetst worden of het geboortejaar in het bedrijf een normale verdeling volgt met verwachtingswaarde µ0 = 1975 en standaardafwijking σ0 = 10. Om deze toets uit te voeren voert men in de syntax volgende instructie in: NPAR TESTS K-S(NORMAL,1975,10)=geboortjaar/METHOD=EXACT. 46

Dit commando resulteert opnieuw in een analoge SPSS output als voorheen.

De interpretatie loopt analoog als deze bij een Poisson-toets (zie 3.3.2). In het voorbeeld kan de nulhypothese niet verworpen worden omdat de p-waarde 0.611 bedraagt. Men kan veronderstellen dat het geboortejaar van werknemers in het bedrijf normaal verdeeld is met µ = 1975 en σ = 10. Indien men in het kader van een Independent Samples T-test wenst na te gaan of de veranderlijken normaal verdeeld zijn in de populatie, kiest men, bij gebrek aan meer informatie, vaak als gekozen waarden µ0 = x en σ0 = S. De toets is dan wel slechts benaderd en men dient verplicht de Lilliefors correctie toe te passen (zie sectie 3.3.5).

3.3.4

Toetsen op Uniforme Verdelingen

Tot slot kan de Kolmogorov Smirnov Toets gebruikt worden om aan de hand van een steekproef na te gaan of een bepaalde continue veranderlijke X in de populatie uniform verdeeld is of niet:  H0 : X ∼ V0 (min0 , max0 ) H1 : X ∼ V1 (min1 , max1 ) Hierbij mogen min0 en max0 niet geschat worden aan de hand van de gehanteerde steekproef. Het dient benadrukt te worden dat de veranderlijke X verondersteld wordt continu te zijn. Om de toetstatistiek D te berekenen aan de hand van de waargenomen en theoretische verdelingsfunctie F (x) maakt SPSS immers gebruik van de continue variant van de uniforme verdelingen. Voor discrete ordinale verdelingen kiest men dan ook de Chi-Square Test.

47

3.3.5

Lilliefors Gecorigeerde Toets

In paragraaf 3.3.1 werd reeds benadrukt dat bij de Kolmogorov Smirnov test de nulhypothese niet mag aangevuld met geschatte steekproefparameters. De Lilliefors test is de Kolmogorov Smirnov toets op het al dan niet normaal verdeeld zijn van een veranderlijke X waarbij de nulhypothese aangevuld wordt met numerieke waarden voor x en S. Deze gaat na of X normaal verdeeld is (ongeacht met welke parameters), terwijl de Kolmogorov Smirnov test nagaat of X een specifieke normale verdeling volgt met gegeven µ0 en σ0 . Wanneer we, bijvoorbeeld, een one sample T-test dienen uit te voeren met n < 30, dan dient het kenmerk X normaal verdeeld te zijn, ongeacht µ en σ. Dit moet dus per definitie getoetst worden met de Lilliefors test. Als voorbeeld wenst men te toetsen of het aantal dienstjaren in het bedrijf normaal verdeeld is of niet. Er zijn geen a priori waarden voor µ en σ. Om dit te toetsen doet men in SPSS Analyze → Descriptive Statistics → Explore Bij Dependent List plaatst men het kenmerk X, hier dienstjaren. Onderaan kiest

men enkel optie plots. Bij Plots kiest men uitsluitend normality tests with plots. Het relevante outputgedeelte is als volgt

48

Men dient te lezen bij Kolmogorov-Smirnov. De Sig bedraagt 0.005 wat leidt tot het verwerpen van de nulhypothese: het aantal dienstjaren in niet normaal verdeeld.

3.4

Toepassingen

1. Aan 132 personen vroeg men naar de afstand tussen hun woonplaats en hun werk. De gegevens werden verwerkt in het bestand Oef1H3.sav. a) Kan men aanvaarden dat de afstand woon-werk in de populatie normaal verdeeld is met gemiddelde µ0 = 35 en standaardafwijking σ0 = 20? Toets dit met α = 5%. b) Bereken met SPSS een 99% betrouwbaarheidsinterval voor de gemiddelde woon-werk afstand. 2. Pieter verloor gisteren in het spelletje Risk en vermoedt dat een blauwe dobbelsteen bij het spel gemanipuleerd werd door iemand van zijn tegenspelers. Bij wijze van experiment wierp hij 100 maal de dobbelsteen. Hij vatte volgende informatie samen in een absolute frequentietabel: xi 1 2 3 4 5 6

Fi 25 19 22 14 10 10

a) Verwerk bovenstaande gegevens effici¨ent in SPSS en bereken ook x. b) Kan men op basis van deze steekproef stellen dat de dobbelsteen onzuiver is? Gebruik hierbij α = 5%. 3. Aan 144 willekeurige personen stelde men de vraag of ze voorstander waren van een alcoholverbod voor -16 jarigen op fuiven, 73 mensen vonden van wel, 71 anderen van niet. Kan men op basis van deze studie stellen dat er in de populatie evenveel voor -als tegenstanders zijn? Gebruik α = 1%. 4. Een onderzoeker heeft het IQ getest van treinbegeleiders. Wegens beperkte (geld)middelen werd een kleine steekproef gehanteerd (n = 27). Men wenst na te gaan of de verwachtingswaarde van de populatie treinbegeleiders groter is dan 100. De waarnemingen werden samengevat in de onderstaande tabel: 49

xi 93 97 103 105 117

Fi 4 5 12 2 4

a) Kan men veronderstellen dat het IQ bij treinbegeleiders normaal verdeeld zal zijn? Gebruik hierbij α = 1%. b) Zijn de toepassingsvoorwaarden van de One Sample T-Test voldaan? Zo neen, waarom niet? c) Toets indien mogelijk de bewering van de onderzoeker met α = 1%. 5. Een student wenst na te gaan of hij een representatieve steekproef genomen heeft uit de populatie Belgen. Uit onderzoek blijkt dat de bevolkingsverdeling over de provincies in Belgi¨e als volgt is (benaderde cijfers): Antw. 16%

...


Similar Free PDFs