Statistiek samenvatting PDF

Title Statistiek samenvatting
Course Data-onderzoek 1
Institution Hogeschool Vives
Pages 10
File Size 305.4 KB
File Type PDF
Total Downloads 38
Total Views 156

Summary

Download Statistiek samenvatting PDF


Description

STATISTIEK INLEIDING Statistiek = het verzamelen, verwerken en interpreteren van gegevens over een bepaald onderwerp. TIPS: -

Geen absolute cijfers vergelijken Bij gebruik van tekeningen, correcte verhoudingen gebruiken

HOOFDSTUK 1: VERZAMELEN VAN GEGEVENS Populatie = de volledige verzameling van objecten, personen waarover je met je onderzoek een uitspraak wil doen. Steekproef = het deel van de populatie waarmee je het onderzoek voert. -

Representatief(betrouwbaar) Aselect (willekeurig) Voldoende groot

Onafhankelijke variabele = min of meer ‘vaste’ kenmerken. Bijvoorbeeld: sekse, geboorteplaats, geboortedatum, land van geboorte. Afhankelijke variabele = grootheid waarvan de waarde afhankelijk is van die van een andere grootheid. (tip: variabelen waarvan we een uitkomst in de kolommen vinden)

MEETSCHALEN Kwalitatief – nominaal => evenwaardig naast elkaar; andere score = andere categorie (bv: haarkleur) Kwalitatief- ordinaal => volgorde; hogere score = hogere waarde kenmerk (bv: beoordeling) Kwantitatief – interval => gelijke intervallen = zelfde verschil in kenmerk (bv: tijdsaanduiding) Kwantitatief – ratio => 2x zoveel naar rechts = 2x zoveel vh kenmerk (bv:duurtijd) Discreet => telling (bv 2008-2009-2010-2011) Continu => meting (bv: uurwerk met secondewijzer)

VERWERVEN VAN GEGEVENS -

Bronvermelding Titel op grafiek Assen benoemen Vierkant assenstelsel

1

HOOFDSTUK 2: ORDENEN VAN GEGEVENS TABELLEN OPSCHRIFT KOP VOORKOLOM

VELD RIJ BRON

Onfah. Variabele = wordt als basis genomen voor de indeling van de populatie in groepen Afh. Variabelen = gevolg van de onafh. Variabelen Teken “.” “-“ “0” ““ “*“

Verklaring Gegeven ontbreekt Gegeven is gelijk aan 0 Gegeven is te klein om uitgedrukt te worden Gegeven kan logischerwijze niet voorkomen Gegeven is een voorlopig cijfer

FREQUENTIETABELLEN Absolute frequentie = het aantal waarnemingen in die klasse => frequentietabel -

Aantal klassen = k Verschil tss uiterste waarden = variatiebreedte = R

  

Relatieve frequentie = frequentie uitgedrukt in % tov het geheel Cumulatieve frequentie = som van het aantal waarnemingen Cumulatieve relatieve frequentie = verhouding vd cumulatieve frequentie tov het geheel.

INDEXCIJFERS = percentage (verhoudingsgetal) van een kenmerk in een bepaalde situatie tov dat kenmerk in een basissituatie. Lopende periode = periode waarvoor men de index uitrekent. Basisperiode / referentieperiode = periode waarmee men vergelijkt.

Enkelvoudig prijsindexcijfer = it0 =

Pt x 100 P0

2

Vaste basis =>blijft voor een zekere periode gelijk Mobiele basis => telkens met een andere basis. Bijv: i okt.sept = indexcijfer voor oktober met als basis september.

HOOFDSTUK 3: VOORSTELLEN VAN GEGEVENS SOORTEN GRAFIEKEN

CIRKELDIAGRAM

Verkoop

-

Oppervlakte wordt verdeeld om de omvang van het kenmerk aan te 1e kwrt duiden. 2e kwrt 3e kwrt GEBRUIK: 4e kwrt kwalitatieve variabelen (bv: opleiding volgens onderwijsniveau) - Bij maximum 6 segmenten.

Totaal moet 100% zijn.

6

STAAFDIAGRAM

5

Om veel gegevens in een assenstelsel te plaatsen

4 GEBRUIK:

3 Reeks 1 Reeks 2 Reeks 3

2 1

-

Voor alle meetschalen (vooral kwalitatieve variabelen) Voor tijdsreeksen (niet te veel versch. tijdsdippen) Voor kwantitatieve var. Als kenmerk discreet is of er verschillende klassenbreedtes zijn.

-

0

6 5 4 Axis Title 3 2 1 0

HISTOGRAM Staafdiagram met de staven tegen elkaar. GEBRUIK: Axis Title

-

-

Verdeling van een populatie Globaal patroon en opvallende afwijkingen zien

Kwantitatieve var. Met een klassenbreedte

3

LIJNDIAGRAM Puntdiagram waarbij de punten met een lijn verbonden zijn.

Y-waarden

GEBRUIK:

3.5 3 2.5 2 1.5 1 0.5 0

-

0.5

1

1.5

2

2.5

3

Tijdsreeks die continu waarneembaar is. Kwantitatieve variabele die continu is = frequentiepolygoon.  Verbindt bovenkant van de staven met elkaar, staven vallen weg. Cumulatief frequentiepolygoon = ogief = cum rel freq. in grafiek uitzetten.

OGIEF = cumulatief frequentie polygoon. Net als lijndiagram, maar dan een spreiding. -

Enkel voor tijdsreeksen Bij kwantitatieve kenmerken, continu => evolutie

BOXPLOT Simpele boxplot : box met Q1, Q2 en Q3, staart tem kleinste en grootste waarneming. Gewone boxplot: box met Q1, Q2 en Q3, staart tem max. 1,5 keer de kwartielafstand (= Q3-Q1). De andere waarden worden door punten apart waargegeven. GEBRUIK: -

Bij kwantitatieve kenmerken

ANDERE Samengesteld diagram = bij meerdere variabelen. Bijv: aantal studenten in verschillende opleidingsniveau’s in versch. jaren Gestapeld staafdiagram = som maken van de verschillende onderdelen om de totalen te kunnen vergelijken. Bijv : totaal aantal studenten hogeschool + unief in verschillende jaren. 100% gestapeld staafsdiagram = zoals vorige maar dan omgezet zodat totalen gelijk gesteld worden aan 100%.

FOUTEN EN TRUCJES BIJ MAKEN VAN GRAFIEKEN -

Goede schaal kiezen Vierkant assenstelsel Bronvermelding Niet te veel cijfers langs de assen Scheurlijn – breuklijn wanneer je grafiek niet vanaf 0 start 4

HOOFDSTUK 4: NUMERIEKE SAMENVATTING VAN EEN VARIABELE DE CENTRUMMATEN HET REKENKUNDIG GEMIDDELDE (

X

)

 Het rekenkundig gemiddelde is de som van alle waarnemingen gedeeld door het aantal waarnemingen. BEREKENEN  Losse gegevens: via statistische gegevens in excel X= GEMIDDELDE(__)  Frequentietabel met discrete gegevens

X=

∑ x i∗f i ∑ fi

met Xi= waarde onafh. Variabele Met Fi = absolute frequentie

 Frequentietabel met continue gegevens (interval) = idem als vorige MAAR: Xi = klassenmidden van de onafh. Variabele.

¿

bovengrens− ondergrens 2

INTERPRETATIE  Enkel zinvol voor kwantitatieve gegevens  Niet mogelijk voor open klassen, wel voor ongelijke klassenbreedtes  Gevoelig voor extreme waarden.

DE MEDIAAN (ME)  De mediaan is de waarde van de middelste term als alle gegevens geordend zijn van klein naar groot BEREKENEN  losse gegevens: stat.ftie Me = mediaan(__)

 Frequentietabel met discrete geg: o

Plaatsnr (N+1)/2= (N+1)*50%

o

Waarde onafh. Var. Via cumulatieve frequentie

 Freq. Tab. Met intervallen

5

o

Benaderen via ogief (zie reeks 8 vb. jongens)

INTERPRETATIE  Enkel zinvol voor kwal-ordinale var. En kwantitatieve var. (gebruik van volgorde!!)  Minder gevoelig voor extremen

DE MODUS (MO)  De modus is het gegeven met de grootste frequentie (meest voorkomend) BEREKENEN  Losse gegevens: via stat. Functie in excel Mo=MODUS.MEERV(__)

=> meerdere cellen selecteren want meerdere modus mogelijk => CTRL+SHIFT+ENTER

 Frequentietabel met discrete gegevens  Aflezen vanuit de frequentietabel LET OP: zorg dat je de onafh. Var. Als modus neemt, niet het aantal keer dat het gegeven voorkomt!  Frequentietabel met continue gegevens  Benaderen vanuit histogram met kruisconstructie = in de grootste blok diagonalen trekken naar de hoekpunten van de aanliggende blokjes; waar ze kruisen loodrecht tot op x-as gaan .

INTERPRETATIE  Lukt voor alle meetschalen  Niet zinvol voor verdeling met ongelijke klassenbreedtes  Absoluut niet gevoelig voor extremen.

SPREIDINGSMATEN VARIATIEBREEDTE R  Duidt de verdeeldheid van de gegevens aan. BEREKENEN  Losse gegevens: stat. Functie in excel R=MAX(_)-MIN(_)  Frequentietabel met discrete gegevens: Aflezen in tabel. R= grootste waarde vd onafh. Var – kleinste waarde onafh. Var.  Frequentietabel met continue gegevens (klassen): aflezen in tabel

6

R= BOVENGRENS laatste klasse – ONDERGRENS laagste klasse INTERPRETATIE  Zeer gevoelig voor extremen  Enkel zinvol voor kwantitatieve kenmerken.

7



STANDAARDAFWIJKING

EN STEEKPROEFAFWIJKING S

BEREKENEN  Losse gegevens: via statistische functie = STDEV.P(_) => bereik = populatie S= STDEV.S(_) => bereik = steekproef



Met

 ²=variantie

 Frequentietabel met discrete gegevens: 2 x i−gem. ¿ . f i ¿ ¿ ∑¿ i

¿ ¿√¿  Wiskundige functie = WORTEL (_) 2

x i−gem. ¿ . f i ¿ ∑f i

¿

∑¿ i

¿ S= √ ¿ 

frequentietabel met continue gegevens : idem MAAR Xi = klassenmidden

INTERPRETATIE  veronderstel normaalverdeling

68% Vd. gegevens

Gem -



gem.



gem+

KWARTIELE AFSTAND QA enkel zinvol voor kwantitatieve var. BEREKENEN QA= (Q3-Q1)/2 8

 losse gegevens : stat.functie 1) Q1 =kwartiel.excl(_;1) 2) Q3 =kwartiel.excl(_;3)

 freq. Tabel met discrete geg. Q1 plaatsnr: [(N+1)]/4=(N+1)*25% waarde onafhankelijk variabele aflezen via cum. Freq. plaatsnr: [(N+1)3]/4=(N+1)*75% waarde onafhankelijk variabele aflezen via cum. Freq.

Q1

 Frequentie tabel met intervallen benaderen in het ogief

INTERPRETATIE VERONDERSTEL: SYMMETRISCHE VERDELING

kwartielafstand QA

0 1 3 7 9 min max 2,5= Q15=Me 7,5=Q3

QA

10

We stellen vast:  ME = MO= GEM.  QA = ME-Q1 = Q3-ME BETEKENIS: ALTIJD: SYMM: ?? SYMM:

DE (MIDDELSTE) 50% VAN GEG LIGT TUSSEN Q1 EN Q3 DE (MIDDELSTE) 50% VAN GEG LIGT TUSSEN ME-QA EN ME+QA ONGEVEER 50% VAN GEG LIGT TUSSEN ME-QA EN ME+QA

EXTRA: GRAFIEKEN VOOR CONCENTRATIE Concentratie = een ongelijke verdeling (cfr. Grootgrondbezitters  armen)

9

20/80 regel: 20% van de populatie bezitten 80% van een bepaald kenmerk.  geen concentratie = alles is gelijk verdeeld (de diagonaal van een curve) LAURENZCURVE  Groepen van gegevens met kwantitatieve kenmerken in klassen met een natuurlijke volgorde.  20/80 regel altijd weergeven op grafiek! TEKENEN      

Rel. frequentie bepalen voor x- en y-kenmerken Cum rel frequentie bepalen voor x- en y-kenmerken We willen de concentratie van de y-kenmerken bepalen Lijndiagram zonder tijdsverloop = grafiek van spreiding met vloeiende lijn EN markeringen. Punt (0,0) toevoegen want grafiek moet nulpunt snijden Diagonaal toevoegen met (0,0) en (100,100) om gelijke verdeling weer te geven  reeks invoegen  20/80 regel: 3de reeks invoegen met punt (80,20)

INTERPRETATIE 100 90 80 70 60 diagonaal grote concentratie matige concentratie 20/80 regel

50 40 30 20 10 0 0

10

20

30

40

50

60

70

80

90

100

10...


Similar Free PDFs