A Excel werkzittingen Formularium PDF

Title A Excel werkzittingen Formularium
Course Statistiek schakel
Institution Universiteit Hasselt
Pages 5
File Size 301.9 KB
File Type PDF
Total Downloads 58
Total Views 138

Summary

Statistiek schakel Excel werkzittingen formularium...


Description

Een boxplot is een eenvoudige grafische samenvatting van de gegevens en wordt opgebouwd met behulp van Invoegen - Box-and-whisker 0 1 2 3 4 5 6 7 8 9 18 De mediaan van een dataset is hierbij gedefinieerd als de waarde van de middelste waarneming indien de uitkomsten van klein naar groot gerangschikt zijn. Het eerste kwartiel (Q1) is die waarde waarvoor ongeveer 25% van de uitkomsten kleiner is. Het derde kwartiel (Q3) is die waarde waarvoor ongeveer 25% van de uitkomsten groter is. Het kruisje in de boxplot geeft het gemiddelde van de waarden aan. Vuistregel voor de dedectie van outliers.

In de internationale literatuur is men min of meer tot de consensus gekomen om waarnemingen die groter zijn dan Q3 + 1,5 ( Q3 - Q1) of kleiner zijn dan Q1 - 1,5 (Q3 - Q1) als gematigde outliers te catalogeren. "Q3 - Q1" wordt hierbij de interkwartielafstand genoemd. Waarnemingen die groter zijn dan Q3 + 3 ( Q3 - Q1) of kleiner zijn dan Q1 - 3 (Q3 - Q1) noemt men extreme outliers. Excel duidt automatisch de gematigde outliers aan (let op, afhankelijk van de grootte van de grafiek kunnen er enkele niet zichtbaar zijn!) De extreme outliers moet je zelf berekenen a.d.h.v. onderstaande tabel (of m.b.v. de boxplot na toevoegen van de gegevenslabels): kwartiel.exc(matrix; 1,2 of 3)

Hierbij staat

1 2 3

eerste kwartiel of 25ste percentiel voor

mediaan derde kwartiel of 75ste percentiel

Q1 mediaan Q3

Centrummaten: modus, mediaan en gemiddelde. Excel-functies:

modus(matrix) , mediaan(matrix), gemiddelde(matrix)

De modus staat voor de meest voorkomende waarde in je dataset. In feite is de modus alleen een zinvolle maatstaf wanneer er een groot aantal waarnemingen is gedaan of de uitkomstenverzameling van je steekproef slechts een beperkt aantal waarden kan aannemen. Bij een "kleine" steekproef kan het zo gebeuren dat alle uitkomsten slechts 1 keer voorkomen. Er is dan geen modus te bepalen. Het gemiddelde behoeft geen verdere uitleg en de mediaan kennen we reeds. Opmerking : bij een symmetrische verdeling zullen modus, mediaan en gemiddelde ongeveer aan elkaar gelijk zijn. Bij een verdeling die meer asymmetrisch is naar rechts (right skewed ) zal het gemiddelde groter zijn dan de mediaan en bij een verdeling die asymmetrisch is naar links (left skewed ) zal het gemiddelde kleiner zijn dan de mediaan (zie figuur).

Spreidingsmaten: variantie, standaardafwijking, scheefheid en kurtosis. Excel-functies: var(matrix), stdev(matrix), scheefheid(matrix), kurtosis(matrix). De steekproefvariantie is gedefinieerd als de "gemiddelde" kwadratische afwijking van alle waarnemingen t.o.v. het gemiddelde. Men noteert de steekproefvariantie met s². In formule luidt deze maatstaf: met

1 n x   xi n i 1

De steekproefstandaardafwijking s is dan logischerwijs gedefinieerd als de vierkantswortel van s². Opmerking: in plaats van standaardafwijking spreekt men vaak ook over de standaarddeviatie . Opmerking: de reden waarom we in de definitie van s² "delen door n-1" is dat men in de statistiek

s² gebruikt als schatter voor de ongekende echte variantie. Indien je nu zou delen door n, kan men aantonen dat dit systematisch een onderschatting van deze echte variantie zou opleveren. De scheefheid is de mate van asymmetrie van je waarnemingen rondom het gemiddelde. Positieve scheefheid wijst op een verdeling die meer asymmetrisch is naar rechts (right skewed). De normaalverdeling heeft scheefheid nul! Negatieve scheefheid wijst op een verdeling die meer asymmetrisch is naar links (left skewed). De kurtosis is een maat voor piekvormigheid in de statistiek. Positieve kurtosis wijst op een verdeling met een sterke piek. De normaalverdeling heeft kurtosis nul! Negatieve kurtosis wijst op een meer platte verdeling (denk aan de uniforme verdeling).

Een samenvattend overzicht van alle centrum- en spreidingsmaten bekom je via "GEGEVENSANALYSE" ----> Beschrijvende statistiek

Aanmaken van een histogram Aantal waarnemingen (n) Minimum Maximum Range (bereik) Aantal klassen Klassebreedte (intervalgrootte) Bijvoorbeeld: 10 klassen Klasse 1 2 3 4 5 6 7 8 9 10

rechtergrens

oneindig = verzamelbereik (in het Engels: "bin range") mbv gegevensanalyse

Normale kwantielplot (QQ-plot) In het algemeen, wanneer je over een dataset van n waarnemingen beschikt, wordt een normale QQ-plot opgebouwd door de kwantielen van de standaard normaalverdeling ( met p achtereenvolgens gelijk aan (1-0,5)/n , (2-0,5)/n tot en met (n-0,5)/n ) te koppelen aan de geordende steekproefwaarnemingen. HANDIGE EXCEL-OPBOUW: nr kansen p N(0,1)-kwantielen geordende steekproef De normale QQ-plot leert ons dan m.b.v. welke transformatie je kan overgaan van een "ideale" steekproef uit Z ~ N(0,1) naar je eigen steekproef uit X: X = f(Z). Indien de puntenkoppels zich ongeveer op een rechte lijn bevinden (d.w.z. f(Z) = µ + σ Z ) is dit een visueel statistisch bewijs van normaliteit. Een "harde" conclusie kan genomen worden op basis van de correlatiecoëfficiënt r van de QQ-plot. Als je geobserveerde correlatie KLEINER is dan de hieronder getabuleerde waarde mag je normaliteit verwerpen . De fout die op je uitspraak zit is hoogstens gelijk aan 5%! n 10 15 20 25 30 40

correlatie r 0.918 0.938 0.950 0.958 0.964 0.972

R² 0.843 0.880 0.903 0.918 0.929 0.945

n 50 60 75 100 150 200

correlatie r 0.976 0.980 0.984 0.986 0.991 0.993

Opmerking: uiteraard is het ook mogelijk om met behulp van de R²-waarde, die je bekomt na toevoeging van een lineaire trendlijn, tot een conclusie te komen.

R² 0.953 0.960 0.968 0.972 0.982 0.986

Maken van voorspellingen in het kader van het zuivere lineaire of lineair gemaakte model. Dan zijn volgende twee betrouwbaarheidsintervallen zinvol om op te stellen: a. 100*(1-α)%

betrouwbaarheidsinterval

voor

y-waarde bij een gegeven x* : y  t   n  2,1  / 2 se b. 100*(1-α)%

voorspellingsinterval

voor

een

de

verwachte

1  n

(x *  x )2  i ( xi  x ) 2

toekomstige

1  y-observatie bij een gegeven x*: y  t  s  1  n  2,1  / 2 e n

commando "voorspellen(…)"

𝑡 ,/ commando "T.INV.2T(…)"  𝑥  − 𝑥 



commando " (n-1)*VAR.S(…)"

(gemiddelde)

(individuele)

(x *  x )2  i ( xi  x ) 2...


Similar Free PDFs