Title | Statistiek samenvatting |
---|---|
Course | Data-onderzoek 1 |
Institution | Hogeschool Vives |
Pages | 10 |
File Size | 305.4 KB |
File Type | |
Total Downloads | 38 |
Total Views | 156 |
Download Statistiek samenvatting PDF
STATISTIEK INLEIDING Statistiek = het verzamelen, verwerken en interpreteren van gegevens over een bepaald onderwerp. TIPS: -
Geen absolute cijfers vergelijken Bij gebruik van tekeningen, correcte verhoudingen gebruiken
HOOFDSTUK 1: VERZAMELEN VAN GEGEVENS Populatie = de volledige verzameling van objecten, personen waarover je met je onderzoek een uitspraak wil doen. Steekproef = het deel van de populatie waarmee je het onderzoek voert. -
Representatief(betrouwbaar) Aselect (willekeurig) Voldoende groot
Onafhankelijke variabele = min of meer ‘vaste’ kenmerken. Bijvoorbeeld: sekse, geboorteplaats, geboortedatum, land van geboorte. Afhankelijke variabele = grootheid waarvan de waarde afhankelijk is van die van een andere grootheid. (tip: variabelen waarvan we een uitkomst in de kolommen vinden)
MEETSCHALEN Kwalitatief – nominaal => evenwaardig naast elkaar; andere score = andere categorie (bv: haarkleur) Kwalitatief- ordinaal => volgorde; hogere score = hogere waarde kenmerk (bv: beoordeling) Kwantitatief – interval => gelijke intervallen = zelfde verschil in kenmerk (bv: tijdsaanduiding) Kwantitatief – ratio => 2x zoveel naar rechts = 2x zoveel vh kenmerk (bv:duurtijd) Discreet => telling (bv 2008-2009-2010-2011) Continu => meting (bv: uurwerk met secondewijzer)
VERWERVEN VAN GEGEVENS -
Bronvermelding Titel op grafiek Assen benoemen Vierkant assenstelsel
1
HOOFDSTUK 2: ORDENEN VAN GEGEVENS TABELLEN OPSCHRIFT KOP VOORKOLOM
VELD RIJ BRON
Onfah. Variabele = wordt als basis genomen voor de indeling van de populatie in groepen Afh. Variabelen = gevolg van de onafh. Variabelen Teken “.” “-“ “0” ““ “*“
Verklaring Gegeven ontbreekt Gegeven is gelijk aan 0 Gegeven is te klein om uitgedrukt te worden Gegeven kan logischerwijze niet voorkomen Gegeven is een voorlopig cijfer
FREQUENTIETABELLEN Absolute frequentie = het aantal waarnemingen in die klasse => frequentietabel -
Aantal klassen = k Verschil tss uiterste waarden = variatiebreedte = R
Relatieve frequentie = frequentie uitgedrukt in % tov het geheel Cumulatieve frequentie = som van het aantal waarnemingen Cumulatieve relatieve frequentie = verhouding vd cumulatieve frequentie tov het geheel.
INDEXCIJFERS = percentage (verhoudingsgetal) van een kenmerk in een bepaalde situatie tov dat kenmerk in een basissituatie. Lopende periode = periode waarvoor men de index uitrekent. Basisperiode / referentieperiode = periode waarmee men vergelijkt.
Enkelvoudig prijsindexcijfer = it0 =
Pt x 100 P0
2
Vaste basis =>blijft voor een zekere periode gelijk Mobiele basis => telkens met een andere basis. Bijv: i okt.sept = indexcijfer voor oktober met als basis september.
HOOFDSTUK 3: VOORSTELLEN VAN GEGEVENS SOORTEN GRAFIEKEN
CIRKELDIAGRAM
Verkoop
-
Oppervlakte wordt verdeeld om de omvang van het kenmerk aan te 1e kwrt duiden. 2e kwrt 3e kwrt GEBRUIK: 4e kwrt kwalitatieve variabelen (bv: opleiding volgens onderwijsniveau) - Bij maximum 6 segmenten.
Totaal moet 100% zijn.
6
STAAFDIAGRAM
5
Om veel gegevens in een assenstelsel te plaatsen
4 GEBRUIK:
3 Reeks 1 Reeks 2 Reeks 3
2 1
-
Voor alle meetschalen (vooral kwalitatieve variabelen) Voor tijdsreeksen (niet te veel versch. tijdsdippen) Voor kwantitatieve var. Als kenmerk discreet is of er verschillende klassenbreedtes zijn.
-
0
6 5 4 Axis Title 3 2 1 0
HISTOGRAM Staafdiagram met de staven tegen elkaar. GEBRUIK: Axis Title
-
-
Verdeling van een populatie Globaal patroon en opvallende afwijkingen zien
Kwantitatieve var. Met een klassenbreedte
3
LIJNDIAGRAM Puntdiagram waarbij de punten met een lijn verbonden zijn.
Y-waarden
GEBRUIK:
3.5 3 2.5 2 1.5 1 0.5 0
-
0.5
1
1.5
2
2.5
3
Tijdsreeks die continu waarneembaar is. Kwantitatieve variabele die continu is = frequentiepolygoon. Verbindt bovenkant van de staven met elkaar, staven vallen weg. Cumulatief frequentiepolygoon = ogief = cum rel freq. in grafiek uitzetten.
OGIEF = cumulatief frequentie polygoon. Net als lijndiagram, maar dan een spreiding. -
Enkel voor tijdsreeksen Bij kwantitatieve kenmerken, continu => evolutie
BOXPLOT Simpele boxplot : box met Q1, Q2 en Q3, staart tem kleinste en grootste waarneming. Gewone boxplot: box met Q1, Q2 en Q3, staart tem max. 1,5 keer de kwartielafstand (= Q3-Q1). De andere waarden worden door punten apart waargegeven. GEBRUIK: -
Bij kwantitatieve kenmerken
ANDERE Samengesteld diagram = bij meerdere variabelen. Bijv: aantal studenten in verschillende opleidingsniveau’s in versch. jaren Gestapeld staafdiagram = som maken van de verschillende onderdelen om de totalen te kunnen vergelijken. Bijv : totaal aantal studenten hogeschool + unief in verschillende jaren. 100% gestapeld staafsdiagram = zoals vorige maar dan omgezet zodat totalen gelijk gesteld worden aan 100%.
FOUTEN EN TRUCJES BIJ MAKEN VAN GRAFIEKEN -
Goede schaal kiezen Vierkant assenstelsel Bronvermelding Niet te veel cijfers langs de assen Scheurlijn – breuklijn wanneer je grafiek niet vanaf 0 start 4
HOOFDSTUK 4: NUMERIEKE SAMENVATTING VAN EEN VARIABELE DE CENTRUMMATEN HET REKENKUNDIG GEMIDDELDE (
X
)
Het rekenkundig gemiddelde is de som van alle waarnemingen gedeeld door het aantal waarnemingen. BEREKENEN Losse gegevens: via statistische gegevens in excel X= GEMIDDELDE(__) Frequentietabel met discrete gegevens
X=
∑ x i∗f i ∑ fi
met Xi= waarde onafh. Variabele Met Fi = absolute frequentie
Frequentietabel met continue gegevens (interval) = idem als vorige MAAR: Xi = klassenmidden van de onafh. Variabele.
¿
bovengrens− ondergrens 2
INTERPRETATIE Enkel zinvol voor kwantitatieve gegevens Niet mogelijk voor open klassen, wel voor ongelijke klassenbreedtes Gevoelig voor extreme waarden.
DE MEDIAAN (ME) De mediaan is de waarde van de middelste term als alle gegevens geordend zijn van klein naar groot BEREKENEN losse gegevens: stat.ftie Me = mediaan(__)
Frequentietabel met discrete geg: o
Plaatsnr (N+1)/2= (N+1)*50%
o
Waarde onafh. Var. Via cumulatieve frequentie
Freq. Tab. Met intervallen
5
o
Benaderen via ogief (zie reeks 8 vb. jongens)
INTERPRETATIE Enkel zinvol voor kwal-ordinale var. En kwantitatieve var. (gebruik van volgorde!!) Minder gevoelig voor extremen
DE MODUS (MO) De modus is het gegeven met de grootste frequentie (meest voorkomend) BEREKENEN Losse gegevens: via stat. Functie in excel Mo=MODUS.MEERV(__)
=> meerdere cellen selecteren want meerdere modus mogelijk => CTRL+SHIFT+ENTER
Frequentietabel met discrete gegevens Aflezen vanuit de frequentietabel LET OP: zorg dat je de onafh. Var. Als modus neemt, niet het aantal keer dat het gegeven voorkomt! Frequentietabel met continue gegevens Benaderen vanuit histogram met kruisconstructie = in de grootste blok diagonalen trekken naar de hoekpunten van de aanliggende blokjes; waar ze kruisen loodrecht tot op x-as gaan .
INTERPRETATIE Lukt voor alle meetschalen Niet zinvol voor verdeling met ongelijke klassenbreedtes Absoluut niet gevoelig voor extremen.
SPREIDINGSMATEN VARIATIEBREEDTE R Duidt de verdeeldheid van de gegevens aan. BEREKENEN Losse gegevens: stat. Functie in excel R=MAX(_)-MIN(_) Frequentietabel met discrete gegevens: Aflezen in tabel. R= grootste waarde vd onafh. Var – kleinste waarde onafh. Var. Frequentietabel met continue gegevens (klassen): aflezen in tabel
6
R= BOVENGRENS laatste klasse – ONDERGRENS laagste klasse INTERPRETATIE Zeer gevoelig voor extremen Enkel zinvol voor kwantitatieve kenmerken.
7
STANDAARDAFWIJKING
EN STEEKPROEFAFWIJKING S
BEREKENEN Losse gegevens: via statistische functie = STDEV.P(_) => bereik = populatie S= STDEV.S(_) => bereik = steekproef
Met
²=variantie
Frequentietabel met discrete gegevens: 2 x i−gem. ¿ . f i ¿ ¿ ∑¿ i
¿ ¿√¿ Wiskundige functie = WORTEL (_) 2
x i−gem. ¿ . f i ¿ ∑f i
¿
∑¿ i
¿ S= √ ¿
frequentietabel met continue gegevens : idem MAAR Xi = klassenmidden
INTERPRETATIE veronderstel normaalverdeling
68% Vd. gegevens
Gem -
gem.
gem+
KWARTIELE AFSTAND QA enkel zinvol voor kwantitatieve var. BEREKENEN QA= (Q3-Q1)/2 8
losse gegevens : stat.functie 1) Q1 =kwartiel.excl(_;1) 2) Q3 =kwartiel.excl(_;3)
freq. Tabel met discrete geg. Q1 plaatsnr: [(N+1)]/4=(N+1)*25% waarde onafhankelijk variabele aflezen via cum. Freq. plaatsnr: [(N+1)3]/4=(N+1)*75% waarde onafhankelijk variabele aflezen via cum. Freq.
Q1
Frequentie tabel met intervallen benaderen in het ogief
INTERPRETATIE VERONDERSTEL: SYMMETRISCHE VERDELING
kwartielafstand QA
0 1 3 7 9 min max 2,5= Q15=Me 7,5=Q3
QA
10
We stellen vast: ME = MO= GEM. QA = ME-Q1 = Q3-ME BETEKENIS: ALTIJD: SYMM: ?? SYMM:
DE (MIDDELSTE) 50% VAN GEG LIGT TUSSEN Q1 EN Q3 DE (MIDDELSTE) 50% VAN GEG LIGT TUSSEN ME-QA EN ME+QA ONGEVEER 50% VAN GEG LIGT TUSSEN ME-QA EN ME+QA
EXTRA: GRAFIEKEN VOOR CONCENTRATIE Concentratie = een ongelijke verdeling (cfr. Grootgrondbezitters armen)
9
20/80 regel: 20% van de populatie bezitten 80% van een bepaald kenmerk. geen concentratie = alles is gelijk verdeeld (de diagonaal van een curve) LAURENZCURVE Groepen van gegevens met kwantitatieve kenmerken in klassen met een natuurlijke volgorde. 20/80 regel altijd weergeven op grafiek! TEKENEN
Rel. frequentie bepalen voor x- en y-kenmerken Cum rel frequentie bepalen voor x- en y-kenmerken We willen de concentratie van de y-kenmerken bepalen Lijndiagram zonder tijdsverloop = grafiek van spreiding met vloeiende lijn EN markeringen. Punt (0,0) toevoegen want grafiek moet nulpunt snijden Diagonaal toevoegen met (0,0) en (100,100) om gelijke verdeling weer te geven reeks invoegen 20/80 regel: 3de reeks invoegen met punt (80,20)
INTERPRETATIE 100 90 80 70 60 diagonaal grote concentratie matige concentratie 20/80 regel
50 40 30 20 10 0 0
10
20
30
40
50
60
70
80
90
100
10...