Statistiek II (2BA Psychologie) PDF

Title Statistiek II (2BA Psychologie)
Course Statistiek II
Institution Universiteit Gent
Pages 90
File Size 3.6 MB
File Type PDF
Total Downloads 82
Total Views 148

Summary

Samenvatting van de cursus van Statistiek II...


Description

STATISTIEK II INTRODUCTIE – – – – –

– – – – – –

Zie structuur van les op Ufora Deel van leerstof wordt tijdens HC niet gezien  zelfstudie: wordt aangekondigd Hele cursus is examenleerstof Slides komen niet online! R is te kennen voor het examen: het gebruik van R staat centraal in dit vak  bijna alle vragen op het examen gaan over R! o R en Rstudio wekelijks 2 à 3 uur gebruiken: commando’s vanbuiten leren, statistische inhoud van HC begrijpen,… o R en Rstudio komen ieder jaar van de opleiding terug o SPSS én Excel maken ook deel uit van leerstof Examen bestaat uit 30 meerkeuzevragen met 4 alternatieven, hogere cesuur (19/30 = 10/20) Voorbeeldexamenvragen komen op Ufora Inzicht in Statistiek I is noodzakelijk: leerstof nog eens opfrissen 120 oefeningen in de cursus zijn leerstog: inzicht krijgen, actief bezig zijn met leerstof, nieuwe concepten in oefeningen dienen gekend te zijn Studiefiche: studietijd bedraagt 180u en contacturen 45u (≈ 100 uur zelfstudie doorheen semester dus ong. 10u per week bezig zijn met statistiek (excl. lessen, werkcolleges,..)) Formularium in cursus gebruiken tijdens examen

OEFENSESSIES – – – – – – – – – –

1

7 zoom-oefensessies in weken 2 tem 8  wekelijks op woensdag inschrijven op Ufora (20u: inschrijven) Ook steeds feedbackbundel op Ufora Uitnodiging voor zoomsessies via Mail Zoomsessie gaat één uur vooraf open, zonder assistent om evt. samen te werken Assistent lost oefeningen klassikaal op, duurt ong. 15 min. Zelf oefeningen oplossen en vragen stellen aan asisstenten Break out rooms gebruiken is mogelijk Oefeningen op voorhand maken, enkel de oefeningen die écht niet lukken proberen maken tijdens sessie Wanneer alles duidelijk is in de oefensessies, mag je de zoomsessie verlaten Afspraak maken met assistent voor begeleiding is mogelijk

HOOFDSTUK 0: PROLEGOMENA 1. STATISTIEK, PSYCHOMETRIE EN METHODOLOGIE –

– –

Methodologie: bepalen hoe de steekproef samengesteld is en welk soort onderzoeksdesign het meest geschikt is o Vb. experimenteel onderzoek o Vb. observationeel onderzoek Psychometrie: bepalen hoe variabelen best gemeten kunnen worden Statistiek: data analyseren met ≠ technieken om een antwoord te kunnen geven op de gestelde onderzoeksvragen o Beschrijvende statistiek: technieken om de gegevens in een steekproef te beschrijven, ordenen, representeren en samen te vatten o Inductieve statistiek: technieken om observaties te veralgemenen naar de populatie

2. VARIABELEN Een variabele = eigenschap die bij de elementen van de populatie of steekproef variëert. – Kan numeriek of niet-numeriek zijn, dit is een keuze van de onderzoeker: elke onderzoeker kiest zelf hoe hij of zij een variabele wil coderen o Numeriek: bestaat uit getallen, vb. geslacht: 0 - 1 o Niet-numeriek: bestaat niet uit getallen, vb. geslacht: man - vrouw – Kan continu of discreet zijn o Continu: tussen elke 2 willekeurige waarden ligt een derde waarde o Discreet: wanneer er geen derde waarde tussen 2 willekeurige waarden ligt o Discrete waarden met veel mogelijke waarden worden vaak op eenzelfde manier ganalyseerd als continue waarden (in principe niet juist, maar pragmatisch correct) Notatie: – Variabele: aangeduid door hoofdletter , vb. X of Y – Geobserveerde scores of waarden van variabele aangeduid door kleine letter, vb. x of y – Succesieve waarnemingen van X in een steekproef: aangeduid door bv. x1, x2, . . . , xn, waar n de steekproefgrootte is.

3. MEETNIVEAUS We onderscheiden 5 meetniveaus: 1. Absolute schaal: variabele wordt gemeten door gewoon objecten (of mensen) te tellen. o Bv. gezinsgrootte, klasgrootte, aantal inwoners, enz.: je telt hoeveel mensen er zijn in het gezin o De meeteenheid is vast. o Het nulpunt is vast: er is geen nulpunt (nulpunt = 0) o De variabele is discreet. vb. variabele 1 of 2 of 3 en niet 1,2 of 2,9 2. Ratioschaal: om de variabele te meten moet je eerst een meeteenheid kiezen. Dan moet je het aantal meeteenheden tellen tussen het te meten object en het vaste nulpunt. o Bv. leeftijd, reactietijd, lengte, gewicht, oppervlakte, enz. o De variabele is continu. 3. Intervalschaal: om de variabele te meten moet je eerst een meeteenheid en een referentiepunt kiezen. Dan moet je het aantal meeteenheden tellen tussen het te meten object en het referentiepunt. o De variabele is continu. 4. Ordinale schaal: je kan de te meten objecten ordenen, maar je kan géén meeteenheid definiëren. o De waarde van de variabele bij een object is gewoon zijn plaats of rangnummer in de ordening.

2

o

o

Bv. uitslag van een wielerwedstrijd, mate van instemming met een bepaalde uitspraak (Likert schaal: de mate waarin je akkoord bent met een uitspraak is continu maar wordt discreet gemeten). De variabele kan continu of discreet zijn.

5. Nominale schaal: de te meten objecten kunnen niet geordend worden. o bv. postcode, haarkleur, geslacht, enz. o De variabele is noch discreet noch continu. o Om te bepalen of een variabele discreet of continu is, moet je twee willekeurige waarden kiezen en nagaan of er waarden ertussen liggen. Dit is onmogelijk indien je de waarden niet kunt ordenen. o Binnen de familie van de nominale variabelen onderscheidt men soms de dichotome variabelen = variabelen die slechts twee waarden kunnen aannemen (bv. gescheiden of niet). En als die twee waarden 0 en 1 zijn, dan spreekt men van 0-1 variabelen (dit is een subfamilie van dichotome variabelen). Statistische technieken voor variabelen van interval- en ratiomeetniveau zijn identiek. Worden vaak onder noemer ‘continue variabelen’ gegroepeerd. Voor nominale en ordinale variabelen als variabelen van absoluut meetniveau zijn er specifieke statistische analyses. – Sommige technieken van nominale variabelen worden gebruikt voor ordinale variabelen. – Nominale en ordinale variabelen worden gegroepeerd onder ‘categorische variabelen’.

4 ZINVOLHEID Een bewering of uitspraak is zinvol als de waarheidswaarde onafhankelijk is van de meetschaal die je gebruikt. ≈ indien de bewering correct is met een bepaalde schaal, dan blijft ze correct met een andere schaal; indien de bewering fout is met een bepaalde schaal dan blijft ze fout met een andere schaal. –







Voorbeeld: de gemiddelde leeftijd in groep A is groter dan in groep B. Stel dat deze bewering juist is wanneer we de leeftijd in jaar uitdrukken. Dan is ze ook correct als we de leeftijd in maanden of eeuwen of seconden uitdrukken. Deze bewering is dus zinvol. Voorbeeld: de gemiddelde temperatuur in Gent in Februari is dubbel zo groot als in Helsinki. Stel dat deze bewering juist is wanneer we de temperatuur in graden Celsius uitdrukken. Ze is fout indien we de temperatuur in graden Fahrenheit uitdrukken. Deze bewering is dus zinloos. Voorbeeld: de gemiddelde score op de Likert schaal “intrinsieke motivatie” is groter in groep 1 dan in groep 2. Stel dat deze bewering juist is wanneer we de vijf niveaus van deze schaal coderen d.m.v. 1, 2, 3, 4 en 5. Ze hoeft niet correct te zijn indien we de vijf niveaus coderen d.m.v. 0, 2, 3, 4 en 6. Deze bewering is dus zinloos. Voorbeeld: “Ik ben 20 jaar oud.” Deze uitspraak is correct waardoor de waarheidswaarde van deze uitspraak ook juist is. De waarheidswaarde ≈ het feit of de uitspraak juist of fout is.

Zinloze beweringen te vermijden door voorzichtig zijn bij het manipuleren van scores. – Bij nominale en ordinale variabelen: scores niet optellen of met elkaar vermenigvuldigen of van elkaar aftrekken of door elkaar delen.  Dus geen gemiddelde, variantie, covariantie, correlatie, enz. ≈ géén rekenkundige berekeningen! – Bij variabelen van intervalmeetniveau: o Scores optellen en uit elkaar aftrekken o Scores door elkaar delen of met elkaar vermenigvuldigen is riskant. o Logaritmes van scores zijn verboden. o Je mag wel de afwijkingen (bv. x1 x2 of xi x U) met elkaar vermenigvuldigen of door elkaar delen. Je mag ook de logaritme van een afwijking berekenen.  Vb. Persoon X is geboren in het jaar 2000. Dit is 2000 jaar na Christus, het nulpunt. – Bij variabelen van ratiomeetniveau zijn er bijna geen restricties. Bij variabelen van absoluut meetniveau is er geen restrictie. o Er is slechts 1 manier: tellen, en dit is onafhankelijk van cultuur, leeftijd, geslacht,…

3

HOOFDSTUK 1: DATA MANIPULATIE Rstudio is heel belangrijk binnen dit opleidingsonderdeel!

1 DE DATA IN R Functie om data in R te stoppen: commando c  functie om vectoren in R aan te maken – > leeftijd data$motivatie data$motivatie 0) of dalend ( ρ X ,Y

gelijk aan nul betekent NIET dat er geen verband bestaat tussen 2

variabelen. Een niet lineair verband zou hier aanwezig kunnen zijn.

CONTINUE TOEVALSVARIABELEN –

Definitie van covariantie wordt hier wat aangepast:



Definitie van correlatiecoëfficient blijft toevalsvariabelen. Interpretatie is ook dezelfde.

hetzelfde als bij discrete

3.1.10 ENKELE NUTTIGE STELLINGEN DE KANSEN VAN COMPLEMENTAIRE GEBEURTENISSEN Laat A en A* complementaire gebeurtenissen zijn bij een bepaald toevalsproces.

DE VERWACHTING VAN EEN CONSTANTE MAAL EEN VARIABELE

17

< 0) is.

Laat Z = aX een toevalsvariabele zijn, met a een constante.

 Zie voorbeeld p. 62-63

DE VERWACHTING VAN EEN SOM Laat Z = X + Y een toevalsvariabele zijn.

Dus de verwachting van een som is de som van de verwachtingen.  Zie voorbeeld p. 63

DE VERWACHTING VAN EEN VERSCHIL Laat Z = X - Y een toevalsvariabele zijn.

Dus de verwachting van een verschil is het verschil tussen de verwachtingen.  Zie voorbeeld p. 63

DE VARIANTIE VAN EEN SOM Laat Z = X + Y een toevalsvariabele zijn.

Dus de variantie van een som is de som van de varianties plus 2 maal de covarianties. In het geval van positief gecorreleerde variabelen is dus de variantie van een som groter dan de som van de varianties.  Zie voorbeeld p. 63 -64

DE VARIANTIE VAN EEN VERSCHIL Laat Z = X - Y een toevalsvariabele zijn.

M.a.w., de variantie van een aftrekking is de som van de varianties min 2 maal de covariantie. Zelfs in het geval van een aftrekking moeten we de varianties optellen.  Zie voorbeeld p. 64

CORRELATIE EN AFHANKELIJKHEID – –

De covariantie van onafhankelijke toevalsvariabelen is altijd nul. Zo ook hun correlatiecoëfficiënt. Het omgekeerde is niet waar. Wanneer ρ X ,Y =0 bestaat er weliswaar géén lineaire samenhang



tussen X en Y maar mogelijk wel een niet-lineaire samenhang. Er kan dus wel een ander soort verband bestaan en de variabelen kunnen dus wel afhankelijk zijn. Afhankelijkheid is een zeer algemeen concept ≈ alle mogelijke verbanden tussen 2 variabelen.

3.2 BIJZONDERE KANSVERDELING 3.2.1 BINOMIALE VERDELING

18

– – – – – – – –

Binomiale verdeling is een discrete verdeling bij dichotome variabelen Met de binomiale verdeling kunnen we de kans modelleren dat een aselecte steekproef van n proefpersonen k personen bevat met een bepaald kenmerk. Zie voorbeeld p. 64 Symbool voor proportie: �  dit is de Griekse letter voor p van proportie Symbool binomiale verdeling: B(n, �) De Binomiale verdeling wordt gegegeven door: De verdeling is discreet en kan de waarden 0, 1, 2, 3,…, n aannemen. Zie voorbeeld p. 65

3.2.2 NORMALE VERDELING Een normaal verdeelde variabele X met verwachting μ en variantie continue toevalsvariabele waarvan de dichtheidsfunctie gegeven wordt door:

σ 2 (notatie: X ~ N(μ, σ 2 )) is een



De dichtheidsfunctie is een symmetrische kromme en haar hoogste punt komt overeen met de



verwachting μ. Dit geldt voor alle variabelen, los van de waarde van μ en σ . R biedt enkele functies om te werken met deze verdeling: o Functie pnorm(..) laat je toe om de kans P(X ~ N(μ, σ 2 ) ≤ x) te bekomen. Dit is de o

oppervlakte onder de curve, aan de linkerkant van x. Functie pnorm(..) heeft 3 argumenten nodig: 1. 2.

Q is het equivalent van x Mean is het equivalent van μ ❑

– – –

3. Sd is het equivalent van σ  Voorbeeld: pnorm(q = 8, mean = 10, sd = 2) o Het extra argument lower.tail = FALSE zorgt ervoor dat je de kans in de rechterstaart kan berekenen en niet in de linkerstaart. o Functie qnorm(..) laat je toe om de waarde met een p kans eronder te berekenen  Voorbeeld: qnorm( p = 0.5, mean = 10, sd = 2 ) De normale verdeling met verwachting μ = 0 en standaarddeviatie = 1 wordt de standaardnormale verdeling genoemd. Dus pnorm: je hebt een getal  kans/oppervlakte berekenen Dus qnorm: je hebt een oppervlakte/kans  kwantiel berekenen

3.2.3 CENTRALE LIMIETSTELLING Stel dat X1, X2,…, Xn n onafhankelijke toevalsvariabelen zijn, met dezelfde verdeling, met verwachting μx en variantie σ 2 , dan wordt de verdeling van de toevalsvariabele naarmate n groter wordt, steeds beter benaderd door de normale verdeling met verwachting μx en variantie In die limiet is de benadering perfect.

σ

2

/n.

De vorm is hier dus belangrijk: de vorm kan benaderd worden door de normaalver deling en deze is “perfect” als n oneindig is. (n  ∞: in de limiet is de benadering perfect). Merk op dat de stelling juist is, los van de verdeling van de variabelen X 1, X2,…, Xn. Ze hoeven niet nomaal te zijn. In praktijk is de benadering zeer goed voor alle n ≥ 30, behalve als de verdeling van X zeer scheef is. Zie cursus p. 72 voor uitleg centrale limietstelling in R

3.2.4 STUDENT VERDELING OF T-VERDELING

19

– –

– –

De Student-verdeling is eigenlijk een oneindige familie van continue kansverdelingen. Elk lid van deze familie wordt gekenmerkt door een positief geheel getal (aantal vrijheidsgraden). De dichtheidsfunctie van de Student verdeling met l vrijheidsgraden (of tl-verdeling) is een klok en de breedte van deze klok wordt kleiner naar gelang l groter wordt.  Zie p. 68 De klok is niet dezelfde als de normaalverdeling: varieert in functie van het aantal vrijheidsgraden. In R: o Functie pt(…): laat je toe om de kans P(Y~ t10 ≤ 1.3) te berekenen o Functie qt(..): laat je toe om te bepalen wat de waarde is van ..% onder de curve als je curve een t-verdeling volgt.

3.2.5 DE F-VERDELING – –



De F-verdeling is eigenlijk een oneindige familie van continue kansverdelingen. Elk lid van deze familie wordt gekenmerkt door twee positieve gehele getallen (aantal vrijheidsgrden). De dichtheidsfunctie van de F-verdeling met l1 en l2 vrijheidsgraden (of Fl1,l2-verdeling) is een asymmetrische klok.  Zie p.69 In R: o Functie pf(…) laat je toe om de kans P(F ~ F10,3 ≤ 2) te berekenen Functie qf(…) laat je toe om te bepalen wat de waarde is van …% onder de curve als je curve de F-verdeling volgt. Zie p. 69-70 voor figuren o



3.3 DE STEEKPROEVENVERDELING – – – – – –

Beschrijvende statistiek: x1, x2, x3,…, xn gebruikt om de scores van de variabele X in de steekproef aan te duiden. Meerdere steekproeven trekken: x1 gaat op een onvoorspelbare manier variëren. Idem voor , x2, x3, …, xn. Score van een variabele X bij individu 1 is een toevalsvariabele en wordt aangeduid door X1. Bij een specifieke steekproef is x1 een realisatie van de toevalsvariabele X1. Idem bij X2, X3,…,Xn. Toevalsvariabelen: X1, X2, X3,…,Xn. Variabelen X, Y, Z.. worden bij individuen geobserveerd en de variabelen 2 X´ , Y´ , Z´ , S , R XY , MO worden bij steekproeven geobserveerd.  Dit zijn

– –

steekproefgrootheden! x1, x2, x3,…, xn zijn realisaties in een specifieke steekproef. Gemiddelde van variabele X in meerdere steekproeven variëert ook



In het kansrekenen gebruiken we dus ook een speciale notatie ( “gemiddelde van X”, terwijl ´x

het gemiddelde in een specifieke steekproef representeert. X´ is:



De formule van



Variantie van X definiëren met symbool OF

20

X ´¿ ¿ voor de toevalsvariabele

S 2X :



Merk op dat we dezelfde notatie SSX gebruiken voor

´ ¿2 X i− X ¿ n

∑¿

x i−´x ¿ ¿ en . De context maakt n

i=1

– –

∑¿ i=1

het duidelijk wat we bedoelen met SSX. We kunnen hetzelfde doen met de mediaan, de modus, de interkwartiele afstand, enz. Al die nieuwe toevalsvariabelen die een combinatie zijn van de toevalsvariabelen X1,...,Xn zijn, worden steekproefgrootheden of statistieken genoemd. o Steekproefgrootheden zijn toevalsvariabelen en hebben dus een kansverdeling. Deze o

kansverdeling wordt een steekproevenverdeling genoemd. De steekproevenverdeling van een steekproefgrootheid wordt altijd geanalyseerd onder de hypothese dat de steekproef het resultaat is van n lukrake trekkingen met teruglegging (men spreekt ook van een aselecte steekproef).

3.4 DE STEEKPROEVENVERDELING VAN De verwachting van

Maar de variantie van door n):





is altijd dezelfde als die



van X:

is altijd kleiner dan die van X (want we delen altijd



Bij een kleine steekproef is de variantie nog vrij groot (vb.



Bij een grote steekproef is de variantie kleiner (vb.

2 σ X /2)

σ 2X /9 )

Stel dat X1, . . . , Xn n onafhankelijke lukrake trekkingen zijn uit een populatie met een normale verdeling N(μ X, 2 σ X ), dan zal X ook normaal verdeeld zijn: Stel dat X1, . . . , Xn n onafhankelijke lukrake trekkingen zijn uit een populatie met een onbekende verdeling met 2 σ X , dan zal X bij benadering normaal verdeeld zijn indien n>30 en indien de 2 verdeling van X niet te scheef is: X ~ N(μX, σ X /n).

verwachting μX en variantie

21

HOOFDSTUK 4: PUNTSCHATTING Wanneer we de verdeling van een variabele in een populatie niet kennen, proberen we één of meerdere parameters te schatten obv de steekproef. – Om een parameter � te schatten gebruiken we een steekproefgrootheid. In het algemeen noemt het een schatter: symbool Q. – Een schatter heeft dus een steekproevenverdeling en is een toevalsvariabele. Telkens als we een steekproef trekken weten we niet wat de waarde van de schatter zal zijn. – Obv een steekproef berekenen we de steekproefgrootheid Q en bekomen we een getal. Dit getal is de schatting: symbool ^θ . – Een schatting is géén toevalsvariabele. Een schatting = de waarde of de realisatie van de schatter in een bepaalde steekproef.

4.1 EIGENSCHAPPEN VAN EEN GOEDE SCHATTER Om goede schattingen te bekomen willen we schatters gebruiken die zo vaak mogelijk een goede schatting geven. Goed betekent hier “niet te verschillend van de te schatten parameter ^θ .” Q is een goede schatter van � indien: –

22

Ze zuiver is: de verwachting van de schatter is gelijk aan de te schatten parameter: o Met andere woorden, we weten dat de schatter zelden een perfecte schatting zal geven. Soms zal de schatting te groot zijn. Soms te klein. Maar in doorsnee willen we dat de schatter gelijk is aan de parameter. o Bij een zuivere schatter kan het zo zijn dat deze vaak sterk overschat en onderschat, maar gemiddeld gezien is de schatting wel correct.



De variantie van de schatter V(Q) kleiner wordt naarmate de steekproefgrootte toeneemt. Dit drukt uit dat de schatter nauwkeuriger zal zijn dan wanneer de steekproef groter wordt. o Als we ≠ schatters hebben voor een bepaalde populatieparameter, dan zeggen we dat de schatter met de kleinste variantie het efficiënst is. o Met andere woorden, we weten dat de schatter zelden een perfecte schat- ting zal geven. Soms zal de schatting te groot zijn. Soms te klein. Maar we willen dat de afwijkingen zo klein mogelijk zijn.


Similar Free PDFs