Statistiek samenvatting PDF

Title	Statistiek samenvatting
Course	Data-onderzoek 1
Institution	Hogeschool Vives
Pages	10
File Size	305.4 KB
File Type	PDF
Total Downloads	38
Total Views	156

Preview

CLICK TO PREVIEW PDF

Summary

Download Statistiek samenvatting PDF

Description

STATISTIEK INLEIDING Statistiek = het verzamelen, verwerken en interpreteren van gegevens over een bepaald onderwerp. TIPS: -

Geen absolute cijfers vergelijken Bij gebruik van tekeningen, correcte verhoudingen gebruiken

HOOFDSTUK 1: VERZAMELEN VAN GEGEVENS Populatie = de volledige verzameling van objecten, personen waarover je met je onderzoek een uitspraak wil doen. Steekproef = het deel van de populatie waarmee je het onderzoek voert. -

Representatief(betrouwbaar) Aselect (willekeurig) Voldoende groot

Onafhankelijke variabele = min of meer ‘vaste’ kenmerken. Bijvoorbeeld: sekse, geboorteplaats, geboortedatum, land van geboorte. Afhankelijke variabele = grootheid waarvan de waarde afhankelijk is van die van een andere grootheid. (tip: variabelen waarvan we een uitkomst in de kolommen vinden)

MEETSCHALEN Kwalitatief – nominaal => evenwaardig naast elkaar; andere score = andere categorie (bv: haarkleur) Kwalitatief- ordinaal => volgorde; hogere score = hogere waarde kenmerk (bv: beoordeling) Kwantitatief – interval => gelijke intervallen = zelfde verschil in kenmerk (bv: tijdsaanduiding) Kwantitatief – ratio => 2x zoveel naar rechts = 2x zoveel vh kenmerk (bv:duurtijd) Discreet => telling (bv 2008-2009-2010-2011) Continu => meting (bv: uurwerk met secondewijzer)

VERWERVEN VAN GEGEVENS -

Bronvermelding Titel op grafiek Assen benoemen Vierkant assenstelsel

1

HOOFDSTUK 2: ORDENEN VAN GEGEVENS TABELLEN OPSCHRIFT KOP VOORKOLOM

VELD RIJ BRON

Onfah. Variabele = wordt als basis genomen voor de indeling van de populatie in groepen Afh. Variabelen = gevolg van de onafh. Variabelen Teken “.” “-“ “0” ““ “*“

Verklaring Gegeven ontbreekt Gegeven is gelijk aan 0 Gegeven is te klein om uitgedrukt te worden Gegeven kan logischerwijze niet voorkomen Gegeven is een voorlopig cijfer

FREQUENTIETABELLEN Absolute frequentie = het aantal waarnemingen in die klasse => frequentietabel -

Aantal klassen = k Verschil tss uiterste waarden = variatiebreedte = R

  

Relatieve frequentie = frequentie uitgedrukt in % tov het geheel Cumulatieve frequentie = som van het aantal waarnemingen Cumulatieve relatieve frequentie = verhouding vd cumulatieve frequentie tov het geheel.

INDEXCIJFERS = percentage (verhoudingsgetal) van een kenmerk in een bepaalde situatie tov dat kenmerk in een basissituatie. Lopende periode = periode waarvoor men de index uitrekent. Basisperiode / referentieperiode = periode waarmee men vergelijkt.

Enkelvoudig prijsindexcijfer = it0 =

Pt x 100 P0

2

Vaste basis =>blijft voor een zekere periode gelijk Mobiele basis => telkens met een andere basis. Bijv: i okt.sept = indexcijfer voor oktober met als basis september.

HOOFDSTUK 3: VOORSTELLEN VAN GEGEVENS SOORTEN GRAFIEKEN

CIRKELDIAGRAM

Verkoop

-

Oppervlakte wordt verdeeld om de omvang van het kenmerk aan te 1e kwrt duiden. 2e kwrt 3e kwrt GEBRUIK: 4e kwrt kwalitatieve variabelen (bv: opleiding volgens onderwijsniveau) - Bij maximum 6 segmenten.

Totaal moet 100% zijn.

6

STAAFDIAGRAM

5

Om veel gegevens in een assenstelsel te plaatsen

4 GEBRUIK:

3 Reeks 1 Reeks 2 Reeks 3

2 1

-

Voor alle meetschalen (vooral kwalitatieve variabelen) Voor tijdsreeksen (niet te veel versch. tijdsdippen) Voor kwantitatieve var. Als kenmerk discreet is of er verschillende klassenbreedtes zijn.

-

0

6 5 4 Axis Title 3 2 1 0

HISTOGRAM Staafdiagram met de staven tegen elkaar. GEBRUIK: Axis Title

-

-

Verdeling van een populatie Globaal patroon en opvallende afwijkingen zien

Kwantitatieve var. Met een klassenbreedte

3

LIJNDIAGRAM Puntdiagram waarbij de punten met een lijn verbonden zijn.

Y-waarden

GEBRUIK:

3.5 3 2.5 2 1.5 1 0.5 0

-

0.5

1

1.5

2

2.5

3

Tijdsreeks die continu waarneembaar is. Kwantitatieve variabele die continu is = frequentiepolygoon.  Verbindt bovenkant van de staven met elkaar, staven vallen weg. Cumulatief frequentiepolygoon = ogief = cum rel freq. in grafiek uitzetten.

OGIEF = cumulatief frequentie polygoon. Net als lijndiagram, maar dan een spreiding. -

Enkel voor tijdsreeksen Bij kwantitatieve kenmerken, continu => evolutie

BOXPLOT Simpele boxplot : box met Q1, Q2 en Q3, staart tem kleinste en grootste waarneming. Gewone boxplot: box met Q1, Q2 en Q3, staart tem max. 1,5 keer de kwartielafstand (= Q3-Q1). De andere waarden worden door punten apart waargegeven. GEBRUIK: -

Bij kwantitatieve kenmerken

ANDERE Samengesteld diagram = bij meerdere variabelen. Bijv: aantal studenten in verschillende opleidingsniveau’s in versch. jaren Gestapeld staafdiagram = som maken van de verschillende onderdelen om de totalen te kunnen vergelijken. Bijv : totaal aantal studenten hogeschool + unief in verschillende jaren. 100% gestapeld staafsdiagram = zoals vorige maar dan omgezet zodat totalen gelijk gesteld worden aan 100%.

FOUTEN EN TRUCJES BIJ MAKEN VAN GRAFIEKEN -

Goede schaal kiezen Vierkant assenstelsel Bronvermelding Niet te veel cijfers langs de assen Scheurlijn – breuklijn wanneer je grafiek niet vanaf 0 start 4

HOOFDSTUK 4: NUMERIEKE SAMENVATTING VAN EEN VARIABELE DE CENTRUMMATEN HET REKENKUNDIG GEMIDDELDE (

X

)

 Het rekenkundig gemiddelde is de som van alle waarnemingen gedeeld door het aantal waarnemingen. BEREKENEN  Losse gegevens: via statistische gegevens in excel X= GEMIDDELDE(__)  Frequentietabel met discrete gegevens

X=

∑ x i∗f i ∑ fi

met Xi= waarde onafh. Variabele Met Fi = absolute frequentie

 Frequentietabel met continue gegevens (interval) = idem als vorige MAAR: Xi = klassenmidden van de onafh. Variabele.

¿

bovengrens− ondergrens 2

INTERPRETATIE  Enkel zinvol voor kwantitatieve gegevens  Niet mogelijk voor open klassen, wel voor ongelijke klassenbreedtes  Gevoelig voor extreme waarden.

DE MEDIAAN (ME)  De mediaan is de waarde van de middelste term als alle gegevens geordend zijn van klein naar groot BEREKENEN  losse gegevens: stat.ftie Me = mediaan(__)

 Frequentietabel met discrete geg: o

Plaatsnr (N+1)/2= (N+1)*50%

o

Waarde onafh. Var. Via cumulatieve frequentie

 Freq. Tab. Met intervallen

5

o

Benaderen via ogief (zie reeks 8 vb. jongens)

INTERPRETATIE  Enkel zinvol voor kwal-ordinale var. En kwantitatieve var. (gebruik van volgorde!!)  Minder gevoelig voor extremen

DE MODUS (MO)  De modus is het gegeven met de grootste frequentie (meest voorkomend) BEREKENEN  Losse gegevens: via stat. Functie in excel Mo=MODUS.MEERV(__)

=> meerdere cellen selecteren want meerdere modus mogelijk => CTRL+SHIFT+ENTER

 Frequentietabel met discrete gegevens  Aflezen vanuit de frequentietabel LET OP: zorg dat je de onafh. Var. Als modus neemt, niet het aantal keer dat het gegeven voorkomt!  Frequentietabel met continue gegevens  Benaderen vanuit histogram met kruisconstructie = in de grootste blok diagonalen trekken naar de hoekpunten van de aanliggende blokjes; waar ze kruisen loodrecht tot op x-as gaan .

INTERPRETATIE  Lukt voor alle meetschalen  Niet zinvol voor verdeling met ongelijke klassenbreedtes  Absoluut niet gevoelig voor extremen.

SPREIDINGSMATEN VARIATIEBREEDTE R  Duidt de verdeeldheid van de gegevens aan. BEREKENEN  Losse gegevens: stat. Functie in excel R=MAX(_)-MIN(_)  Frequentietabel met discrete gegevens: Aflezen in tabel. R= grootste waarde vd onafh. Var – kleinste waarde onafh. Var.  Frequentietabel met continue gegevens (klassen): aflezen in tabel

6

R= BOVENGRENS laatste klasse – ONDERGRENS laagste klasse INTERPRETATIE  Zeer gevoelig voor extremen  Enkel zinvol voor kwantitatieve kenmerken.

7



STANDAARDAFWIJKING

EN STEEKPROEFAFWIJKING S

BEREKENEN  Losse gegevens: via statistische functie = STDEV.P(_) => bereik = populatie S= STDEV.S(_) => bereik = steekproef



Met

 ²=variantie

 Frequentietabel met discrete gegevens: 2 x i−gem. ¿ . f i ¿ ¿ ∑¿ i

¿ ¿√¿  Wiskundige functie = WORTEL (_) 2

x i−gem. ¿ . f i ¿ ∑f i

¿

∑¿ i

¿ S= √ ¿ 

frequentietabel met continue gegevens : idem MAAR Xi = klassenmidden

INTERPRETATIE  veronderstel normaalverdeling

68% Vd. gegevens

Gem -



gem.



gem+

KWARTIELE AFSTAND QA enkel zinvol voor kwantitatieve var. BEREKENEN QA= (Q3-Q1)/2 8

 losse gegevens : stat.functie 1) Q1 =kwartiel.excl(_;1) 2) Q3 =kwartiel.excl(_;3)

 freq. Tabel met discrete geg. Q1 plaatsnr: [(N+1)]/4=(N+1)*25% waarde onafhankelijk variabele aflezen via cum. Freq. plaatsnr: [(N+1)3]/4=(N+1)*75% waarde onafhankelijk variabele aflezen via cum. Freq.

Q1

 Frequentie tabel met intervallen benaderen in het ogief

INTERPRETATIE VERONDERSTEL: SYMMETRISCHE VERDELING

kwartielafstand QA

0 1 3 7 9 min max 2,5= Q15=Me 7,5=Q3

QA

10

We stellen vast:  ME = MO= GEM.  QA = ME-Q1 = Q3-ME BETEKENIS: ALTIJD: SYMM: ?? SYMM:

DE (MIDDELSTE) 50% VAN GEG LIGT TUSSEN Q1 EN Q3 DE (MIDDELSTE) 50% VAN GEG LIGT TUSSEN ME-QA EN ME+QA ONGEVEER 50% VAN GEG LIGT TUSSEN ME-QA EN ME+QA

EXTRA: GRAFIEKEN VOOR CONCENTRATIE Concentratie = een ongelijke verdeling (cfr. Grootgrondbezitters  armen)

9

20/80 regel: 20% van de populatie bezitten 80% van een bepaald kenmerk.  geen concentratie = alles is gelijk verdeeld (de diagonaal van een curve) LAURENZCURVE  Groepen van gegevens met kwantitatieve kenmerken in klassen met een natuurlijke volgorde.  20/80 regel altijd weergeven op grafiek! TEKENEN      

Rel. frequentie bepalen voor x- en y-kenmerken Cum rel frequentie bepalen voor x- en y-kenmerken We willen de concentratie van de y-kenmerken bepalen Lijndiagram zonder tijdsverloop = grafiek van spreiding met vloeiende lijn EN markeringen. Punt (0,0) toevoegen want grafiek moet nulpunt snijden Diagonaal toevoegen met (0,0) en (100,100) om gelijke verdeling weer te geven  reeks invoegen  20/80 regel: 3de reeks invoegen met punt (80,20)

INTERPRETATIE 100 90 80 70 60 diagonaal grote concentratie matige concentratie 20/80 regel

50 40 30 20 10 0 0

10

20

30

40

50

60

70

80

90

100

10...