Deskriptive Statistik und Inferenzstatistik PDF

Title Deskriptive Statistik und Inferenzstatistik
Course Statistik
Institution Ruprecht-Karls-Universität Heidelberg
Pages 36
File Size 2.4 MB
File Type PDF
Total Downloads 23
Total Views 137

Summary

Download Deskriptive Statistik und Inferenzstatistik PDF


Description

Deskriptive Statistik und Inferenzstatistik Deskriptive Statistik und Wahrscheinlichkeitstheorie Einführung & Grundbegriffe Deskriptive Statistik:     

darstellende, beschreibende Statistik Gruppe statistischer Methoden zur Beschreibung statistischer Daten anhand statistischer Kennwerte/Graphiken/Diagramme/Tabellen Bezug auf eine konkrete untersuchte Stichprobe (vs. Inferenzstatistik: schlussfolgernde Statistik; Rückschlüsse von der Stichprobe auf die zugrunde liegende Population) Merkmale auf Basis verschiedener Settings (Personenmerkmale, Merkmale von Therapiemaßnahmen etc.)

Datenerhebung: Messung bestimmter Merkmalsausprägungen der untersuchten Einheiten

Arten von Merkmalen: 

Qualitative vs. Quantitative Merkmale:  qualitative Merkmale: Zugehörigkeit zu einer Kategorie (z.B. Geschlecht, Wohnort)  quantitative Merkmale: Ausprägung eines Merkmals auf einem Kontinuum (z.B. Größe –



Manifeste vs. Latente Merkmale:  manifeste Merkmale: prinzipiell direkt messbare/beobachtbare Merkmale (z.B. Geschlecht,

ausgeprägt auf cm-Skala)

Größe)



latente Merkmale: nur indirekt erfassbare Merkmale; unzureichende operationale Definition – keine konkreten Messvorschriften, sondern auf Grundlage eigener Messskalen & eigener Bestimmungen (zB. Intelligenz, Ängstlichkeit)

Merkmal qualitativ

manifest  Geschlecht  Wohnort…  Alter  Gewicht…

quantitativ

latent  

Persönlichkeitstypus? (z.B. „Choleriker“)… Persönlichkeitseigenschaft (z.B. Schüchternheit)…

Vom Merkmal zur Variablen – Psychologische Messung & Operationalisierung: 

Operationalisierung: → Entwicklung & Definition exakter/präziser Messvorschriften zur Erfassung (Kodierung) eines Merkmals → Kodierung der Merkmalsausprägungen meist in Zahlen erfolgend → Variable, die Informationen enthält → Beispiel einer Operationalisierung: Die Variable „alter1“ soll das Alter (→ Merkmal) der untersuchten Personen (→ konkrete Stichprobe) in Jahren (→ Messvorstift) erfassen.



→ Art der Operationalisierung beeinflusst das Skalenniveau & damit die Möglichkeiten der statistischen Auswertung! s.u. Messung: Zuordnung von Zahlen zu Objekten gemäß den Regeln der Operationalisierung

Klassifikation von Variablen: 

Diskrete vs. Kontinuierliche Variablen:  diskrete Variablen: diskrete/abzählbare/natürliche Anzahl bzw. Abstufung von möglichen Werten; keine Rangfolge der Merkmalsausprägung → binär/zweistufig (z.B. Geschlecht) → multinominal/mehrstufig (z.B. PLZ)



kontinuierliche Variablen: mögliche Werte liegen auf einem Kontinuum (z.B. Größe, Alter); theoretisch unendlich viele mögliche Abstufungen; natürliche Rangfolge; durch

Operationalisierung streng genommen Umwandlung kontinuierlicher Variablen in diskrete Variablen (z. B. Alter in vollen Jahren); dennoch Bezeichnung vieler Abstufungen als kontinuierlich

Skalenniveaus:  

Skalenniveau: Maß für die Genauigkeit & Aussagekraft eines Datensatzes Skalenniveaus unterschieden sich hinsichtlich ihres Gehalts an kodierten Informationen und somit in der Möglichkeiten ihrer statistischen Auswertung! → Die Art der Operationalisierung & die Art des erhobenen Merkmals beeinflussen das Skalenniveau! → Durch die Art der Messung kann das Skalenniveau sinken! → Da die Messgenauigkeit und Aussagekraft der Daten mit dem Skalenniveau steigt, ist Ziel stets die Erreichung eines möglichst hohen Skalenniveaus,

Kennzeichen

Nominalskalenniveau „Namen“/Zahlen für jede Merkmalsausprägung (z.B. Geschlecht: m/w; Glücklich: ja/nein)

Annahmen

1) Exklusivität

Ordinalskalenniveau (Rangskalenniveau) Aufschluss über die Rangfolge der Merkmalsträger (z.B. Diagnosen; Schulabschluss: kein SA=0 Hauptschule=1 Realschule=2 Gymnasium=3)

Intervallskalenniveau Aufschluss über die Abstände zwischen Merkmalsausprägungen (z.B. IQ-Werte: IQ(Peter)=80 IQ(Anna)=98 → ∆IQ=18)

Verhältnisskalenniveau Aufschluss über das Verhältnis zwischen Merkmalsausprägungen, meist bei physikalischen Messgrößen (Gewicht, Zeit,…) (z.B. Alter; Reaktionszeit – „Anna reagiert „doppelt so schnell“ wie Peter)

1) ´´ +

1) ´´ +

1) ´´ +

2) ´´ +

2) ´´ +

2) ´´ +

3) Rangreihe der zugeordneten Zahlen einer Merkmalsausprägung

3) ´´ +

3) ´´ +

(untersch. Zahlen für untersch. Merkmalsausprägungen; z.B. nur ein Fußballspieler kriegt das Trikot Nr.3)

2) Exhaustivität (jeder beobachtbaren Merkmalsausprägung wird eine Zahl zugeordnet; z.B. jeder Fußballspieler kriegt ein Trikot)

4) gleichgroße 4) ´´ + Intervalle zwischen Zahlenwerten der Variablen ≜ gleichgroße Abstände in der Merkmalsausprägung 5) definierter Nullpunkt der Skala

mögliche Aussagen/ Aussagekraft

1) (nur) Gleichheit/Vers chiedenheit der Merkmalsausprägung (keine größer-/kleinerRelationsaussagen)

1) ´´ +

1) ´´ +

1) ´´ +

2) größer-/kleinerRelationen (keine

2) ´´ +

2) ´´ +

3) Abstände/Größ e von Unterschieden

3) ´´ +

Interpretation von Abständen)

4) Verhältnis von Merkmalsausprägungen (z.B. „doppelte Reaktionszeit“)

erlaubte Transformatio nen/ Transformationsmöglichkeiten

eineindeutige Transformationen (z.B. w=100, m=200 oder w=2, m=1)

monotone Transformationen (linear y=ax (+b), logarithmierend y=log(x))

nur lineare Transformationen (y=ax (+b); kein Logarithmieren)

nur multiplikative Transformationen (y=ax; → Beibehaltung des 𝑦 Verhältnisses 1 ) 𝑦2

(z.B. y=12x; Umrechnung von Jahren in Monaten)

nur Angabe des Modalwertes möglich homomorphe Abbildung: Rückschluss von der Variablen auf das Merkmal möglich

Mindestvoraussetzung für die Berechnung von Median & die Bildung von Quartilen

Mindestvoraussetzung für die Berechnung von arithmetischem Mittel, Varianz. Standardabweichung, Schiefe, Exzess für (latente) psychologische Konstrukte meist nur Intervallskalenniveau angenommen, da z.B. kein Sinn „Anna doppelt so ängstlich wie Peter“, sondern nur „Anna ist um 3 Ängstlichkeitspunkte ängstlicher als Peter“

Bsp.: Erfassung von Schulnoten (1-6) erlaubt eigentlich nur Ordinalskalenniveau, da nur Rangreihe ohne Interpretation des Notenabstandes – jedoch sinnvoller bei Erfassung vieler Datenwerte: Erhöhung/Annahme von Intervallskalenniveau, um z.B. Durchschnittsnote zu berechnen → bei „Aggregation von Items“ (Summenbildung einzelner Fragen eines Fragebogens) wird Intervallskalenniveau angenommen!

Bsp.: Reaktionszeit – verhältnisskaliert, aber Unterschied ∆t zw. 500600ms bedeutsamer als zwischen 1500-1600ms → daher vor der Skalierung/Auswertung Logarithmierung, denn:  600-500=100 1600-1500=100  aber: ln(600)-ln(500)=0,18 ln(1600)-ln(1500)=0.07 → logarithmierte Zeiten bilden das intervallskalierte Konstrukt (z.B. Ängstlichkeit) besser ab

Statistische Kennwerte Häufigkeiten & Prozentwerte:  

Urliste: enthält alle Werte einer Stichprobe; der Übersichtslichkeit halber zusammengefasst Kategorisierung: wenn ein Merkmal zu viele Ausprägungen hat, um für jede einzelne Ausprägung die Häufigkeit anzugeben → Regeln für Kategorien:  disjunkt (keine Überlappung)  direkt benachbart (keine Lücken); an den Rändern Offenheit erlaubt  gleich groß Bsp.: IQ: 80-99 / 100-119 / 120-139 / 140- → disjunkt, direkt benachbart, gleich groß  Faustregel für die sinnvolle Anzahl (m) Kategorien bei Stichprobengröße N: 𝑚 = 1 + 3,32 ∗ log 𝑁

Maße der Zentralen Tendenz: Die Maße der zentralen Tendenz geben Aufschluss darüber, wie sich die Mehrheit & Mitte einer Verteilung verhält. 



Modalwert/Modus: der am häufigsten vorkommende Wert innerhalb der Datenmenge (5-5-5-3-2-24)→5; mehrere Modalwerte möglich; für nominalskalierte Daten sinnvoll Median: Wert in der Mitte einer als Rangreihe (𝑥1 … 𝑥𝑁 ) dargestellten Verteilung; teilt in der geordneten Reihe die oberen 50% von den unteren; bei gerader Anzahl an Werten das arithmetische Mittel der mittleren zwei (2-2-3-4-5-5-5)→4; für ordinalskalierte Daten sinnvoll  Ungerade Anzahl N an Werten in der Rangreihe: 𝑴𝒅 = 𝒙𝑵+𝟏 𝟐





→ Formel für die Stelle des Medians; der dazugehörige Wert ist der Median Gerade Anzahl an Werten in der Rangreihe: 𝒙𝑵 + 𝒙𝑵+𝟏 𝟐 𝟐 𝑴𝒅 = 𝟐 → x-Indexe zeigen Stellen an, an denen der jeweilige Wert abzulesen ist; Mittelwert der beiden mittleren Werte in der Rangreihe

Mittelwert/arithmetisches Mittel 𝑥 : „Durchschnitt“ – Quotient aus der Summe aller Werte einer Verteilung und der Gesamtanzahl an Werten (2-2-3-4-5-5-5)→𝑥 = 2+2+3+4+5+5+5 ≈ 3,71; nur für 7 intervallskalierte Daten sinnvoll ∑𝑵 𝑿𝒊  = 𝒊=𝟏 𝒙 𝑵 mit: 𝑁 = 𝐺𝑒𝑠𝑎𝑚𝑡𝑎𝑛𝑧𝑎ℎ𝑙 𝑎𝑛 𝑊𝑒𝑟𝑡𝑒𝑛; 𝑋𝑖 = 𝑒𝑖𝑛𝑧𝑒𝑙𝑛𝑒 𝑊𝑒𝑟𝑡𝑒 𝑋 𝑒𝑖𝑛𝑒𝑟 𝑀𝑒𝑠𝑠𝑟𝑒𝑖ℎ𝑒

Die Maße der zentralen Tendenz ermöglichen Rückschlüsse auf die Verteilungsform!

Maße der Dispersion (Streuung, Unsicherheit): Dispersionsmaße beziehen sich auf die Variabilität einer Verteilung – d.h. darauf, wie sehr sich die Werte der Verteilung unterscheiden bzw. um einen gegebenen Wert streuen. 

Spannweite/Range: o bei kontinuierlichen Variablen: Differenz aus dem höchsten und niedrigsten Testwert (2-2-3-4-5-5-5)→∆𝑑 = 5 − 2 = 3

o bei diskreten Variablen: Anzahl der Kategorien o Bewertung: geringe Aussagekraft über die Verteilung, da nur zwei Werte berücksichtigt – hohe Empfindlichkeit gegenüber Ausreißern & keine Berücksichtigung der Mitte 

Interquartilabstand: o Quartilgrenzen (QG): die drei Punkte einer Verteilung, die die geordnete Rangreihe in Quartile (jeweils 25%) unterteilen o (0%) – 1.QG (25%) – 2.QG (50%) (= Median) – 3.QG (75%) – (100%) o Interquartilabstand (IQA): Abstand zwischen dem 1. und 3. Quartil [IQA=QG3-QG1] (5-7-12-14-14-15-21-38-100-102-108-200)→𝐼𝑄𝐴 = 101 − 13 =88

o Maß für den „Kernbereich“ – umfasst 50% der Werte einer Stichprobe o Voraussetzung: Ordinalskalenniveau o Bewertung: weniger empfindlich gegenüber Ausreißern als die Spannweite, aber keine Berücksichtigung der Randwerte Maße der Dispersion – Zentrale Momente der Variablen 

zentrales Moment: Abstand des jeweiligen Messwertes 𝑥𝑖 vom Mittelwert 𝑥 (einfacher/quadrierter/potenzierter…; berücksichtigt also jeden individuellen Wert in der Verteilung) o zentrales Moment 1. Ordnung: (𝒙𝒊 − 𝒙 ) → reale Abweichung 𝟐 o zentrales Moment 2. Ordnung: (𝒙𝒊 − 𝒙 ) → benötigt bei der Varianz & SD 𝟑 o zentrales Moment 3. Ordnung: (𝒙𝒊 − 𝒙 ) → benötigt bei der Schiefe o zentrales Moment 4. Ordnung: (𝒙𝒊 − 𝒙 )𝟒 → benötigt beim Exzess (Kurtosis)

Varianz & Standardabweichung: 

Varianz 𝑉 bzw. 𝑠𝑥 2 : o wichtiges Maß der Dispersion – berücksichtigt jeden einzelnen Wert 𝑥𝑖 o berechnet aus dem zentralen Moment 2. Ordnung (𝒙𝒊 − 𝒙 )𝟐 o gibt die mittlere quadrierte Abweichung der Werte vom Mittelwert an („durchschnittliches quadriertes Moment") o Voraussetzung: Intervallskalenniveau

𝑽 = 𝒔𝒙 𝟐 =

 )𝟐 ∑𝑵 𝒊=𝟏(𝒙𝒊 −𝒙

o Schritte:

𝑵

(in der Stichprobe)

1) Berechnung des Mittelwertes 𝑥 2) Berechnung der jeweiligen Abweichungen der einzelnen Werte vom Mittelwert 3) Quadrieren dieser Abweichungen → Vorzeichen der Abweichungen entfällt & große/kleine Abweichungen werden besonders gewichtet! 4) Summieren der quadrierten Abweichungen 5) Dividieren der Summe durch die Stichprobenanzahl N

o Varianz in der Stichprobe vs. Varianz in der Population: o obere Formel gilt für die Varianz in der entnommenen Stichprobe – meist möchte man aber etwas über die Varianz in der gesamten Population herausfinden o Problem: Varianz ist kein „erwartungstreuer Schätzer“ – Mittelwert der Varianzen vieler Stichproben entspricht nicht der Varianz der Poulation o Stichprobenvarianz unterschätzt die Populationsvarianz – Abweichung umso größer, je kleiner die Stichprobe ist

o Varianz in der Stichprobe:

𝑵 𝒊=𝟏

)𝟐 ∑ (𝒙𝑵𝒊 − 𝒙 𝑽𝒔𝒕die = geschätzte 𝒔𝒙 = o Korrekturformel für Varianz in der Population: 𝑵 )𝟐 ∑ 𝒊=𝟏(𝒙𝒊 − 𝒙 𝟐 𝑽𝒑 = 𝝈 𝒙 = 𝑵−𝟏 → 𝜎 zur Verdeutlichung des Bezugs auf die Population → ^ zur Verdeutlichung der geschätzten Varianz → 𝑁 − 1 zur Korrektur des Ergebnisses nach oben – umso geringerer Einfluss je größer die Stichprobe o Bewertung: große Aussagekraft, da Berücksichtigung jedes einzelnen Wertes, schwer zu interpretieren aufgrund der Bildung der Quadrate der Abweichungen – daher Standardabweichung s.u. 𝟐



Standardabweichung 𝑠𝑥 : o wichtiges Maß der Dispersion – berücksichtigt jeden einzelnen Wert 𝑥𝑖 o berechnet aus dem zentralen Moment 2. Ordnung (𝒙𝒊 − 𝒙 )𝟐 o gibt die mittlere Abweichung der Werte von Mittelwert an („durchschnittliches zentrales Moment“) – Quadratwurzel aus der Varianz – Aufhebung der quadrierten Abweichungen o Vorrausetzung: Intervallsklaenniveau o Standardabweichung in der Stichprobe: 𝒔𝒙 = √𝒔𝒙 𝟐 = √

∑𝑵 )𝟐 𝒊=𝟏(𝒙𝒊 − 𝒙 𝑵

o geschätzte Standardabweichung in der Population: 𝝈𝒙 = √𝝈 𝒙 𝟐 = √

)𝟐 ∑𝑵 𝒊=𝟏(𝒙𝒊 − 𝒙 𝑵−𝟏

mit: (𝑥𝑖 − 𝑥 ) = 𝐴𝑏𝑤𝑒𝑖𝑐ℎ𝑢𝑛𝑔𝑠𝑤𝑒𝑟𝑡 𝑑𝑒𝑠 𝑒𝑖𝑛𝑧𝑒𝑙𝑛𝑒𝑛 𝑇𝑒𝑠𝑡𝑤𝑒𝑟𝑡𝑒𝑠 𝑣𝑜𝑚 𝑎𝑟𝑖𝑡ℎ𝑚𝑒𝑡𝑖𝑠𝑐ℎ𝑒𝑛 𝑀𝑖𝑡𝑡𝑒𝑙; (𝑥𝑖 − 𝑥 )2 = 2 𝑞𝑢𝑎𝑑𝑟𝑖𝑒𝑟𝑡𝑒 𝐴𝑏𝑤𝑒𝑖𝑐ℎ𝑢𝑛𝑔 𝑧𝑢𝑚 𝐴𝑢𝑠𝑠𝑐ℎ𝑙𝑢𝑠𝑠 𝑛𝑒𝑔𝑎𝑡𝑖𝑣𝑒𝑟 𝑊𝑒𝑟𝑡𝑒; ∑ 𝑁 𝑖=1(𝑥𝑖 − 𝑥 ) = 𝑆𝑢𝑚𝑚𝑒 𝑑𝑒𝑟 𝑒𝑖𝑛𝑧𝑒𝑙𝑛𝑒𝑛 𝑞𝑢𝑎𝑑𝑟𝑖𝑒𝑟𝑡𝑒𝑛 𝐴𝑏𝑤𝑒𝑖𝑐ℎ𝑢𝑛𝑔𝑒𝑛; 𝑤𝑖𝑟𝑑 𝑑𝑢𝑟𝑐ℎ 𝑑𝑖𝑒 𝐴𝑛𝑧𝑎ℎ𝑙 𝑁 𝑑𝑒𝑟 𝐷𝑎𝑡𝑒𝑛𝑝𝑢𝑛𝑘𝑡𝑒 𝑑𝑖𝑣𝑖𝑑𝑖𝑒𝑟𝑡; 𝑎𝑛𝑠𝑐ℎ𝑙𝑖𝑒ß𝑒𝑛𝑑√ 𝑧𝑢𝑟 𝐴𝑢𝑓 ℎ𝑒𝑏𝑢𝑛𝑔 𝑑𝑒𝑟 𝑞𝑢𝑎𝑑𝑟𝑖𝑒𝑟𝑡𝑒𝑛 𝑊𝑒𝑟𝑡𝑒

Schiefe 𝑎3 : o zusätzliche Information über die Form der Verteilung – linkssteil/symmetrisch/rechtssteil o berechnet aus dem zentralen Moment 3. Ordnung (𝒙𝒊 − 𝒙 )𝟑 𝒂𝟑 =

)𝟑 ∑𝑵 𝒊=𝟏(𝒙𝒊 − 𝒙 𝑵 ∙ 𝒔𝒙 𝟑

𝒂𝟑 > 𝟎 linkssteile Verteilung 𝒂𝟑 = 𝟎 symmetrische Verteilung

(d.h. Zähler 0 – Abweichungen der unterhalb des Mittelwerts liegenden Werte betragsgleich wie die der oberhalb liegenden - ^3 bewirkt Vorzeichen-Beibehalt)

𝒂𝟑 < 𝟎 rechtssteile Verteilung

Exzess (Kurtosis) 𝑎Information o zusätzliche über die Form der Verteilung – breitgipflig/schmalgipflig 4: o berechnet aus dem zentralen Moment 4. Ordnung (𝒙𝒊 − 𝒙 )𝟒 𝑵 𝒂𝟒 < 𝟎 breitgipflige Verteilung )𝟒 ∑𝒊=𝟏(𝒙𝒊 − 𝒙 − 𝟑 𝒂𝟒 > 𝟎 schmalgipflige Verteilung 𝒂𝟒 = 𝟒 𝑵 ∙ 𝒔𝒙 𝒂𝟒 = 𝟎 Normalverteilung o alternative Darstellung (z.B. in RStudio): 𝒂´𝟒 < 𝟑 breitgipflige Verteilung ∑𝑵 𝒙)𝟒 𝒊=𝟏(𝒙𝒊 −  𝒂´ 𝒂´𝟒 = 𝟒 > 𝟑 schmalgipflige Verteilung 𝑵 ∙ 𝒔𝒙 𝟒 𝒂´𝟒 = 𝟑 Normalverteilung

_______________________________________________________________ Überblick – Statistische Kennwerte & Mindestskalenniveau Maß Häufigkeit/Prozente Modalwert Median Quartile Arithmetisches Mittel Varianz Standardabweichung Schiefe Exzess (Kurtosis)

Skalenniveau mindestens Nominalskalenniveau Nominalskalenniveau Ordinalskalenniveau Ordinalskalenniveau Intervallskalenniveau Intervallskalenniveau Intervallskalenniveau Intervallskalenniveau Intervallskalenniveau

Diagramme Diagramme gehören neben Tabellen und Kennwerten zu den deskriptiv-statistischen Darstellungsformen. Sie dienen der übersichtlichen Darstellung der tatsächlichen Daten, nicht zu Verschönerungen und dadurch Vermittlung falscher Bilder. Es werden Diagramme für unterschiedliche Verwendungszwecke unterschieden: o o o o

für Häufigkeiten und Prozentwerte: Balkendiagramme, Kreisdiagramme, Polygone für Verteilungen: Histogramme, Boxplots, Stem-and-Leaf Plots für Mittelwerte: Balkendiagramme, Liniendiagramme für Zusammenhänge: Scatterplots

Bedingungen für aussagekräftige Diagramme: o Beschriftungen der Achsen o Skalierung – Skala sollte den Wertebereich der Variablen repräsentieren, bei gemeinsamen Abbildungen sollten alle Diagramme identische Wertebereiche auf den Achsen aufweisen – nur dadurch Vergleichbarkeit o Fehlerbalken (insb. bei Balkendiagrammen für Mittelwerte: Fehlerbalken für ±𝝈, um Varianz in den Werten, die diesen Mittelwert bilden zu beleuchten) o Bereinigung von Ausreißer- und Extremwerten vor statistischer Datenanalyse (Kriterien s.u.), da sonst Verzerrung des Ergebnisses

Diagramme für Häufigkeiten und Prozentwerte (→ für nominalskalierte Datensätze) Balkendiagramm: Verwendung: Darstellung von Häufigkeiten, Prozentwerten, geeignet für diskrete Variablen mit wenigen Stufen (auch für intervallskalierte Datensätze – Mittelwerte s.u.)

o ein Balken für jeden vorkommenden Wert bzw. jede Kategorie der Variablen o Höhe des Balkens kennzeichnet die Häufigkeit des Auftretens des entsprechenden Variablenwertes bzw. der Kategorie o wichtig: Beschriftung, Skalierung, bei Balkendiagramm für Mittelwerte: Fehlerbalken (s.u.) Kreisdiagramm: Verwendung: Darstellung von Häufigkeiten, Prozentwerten, geeignet für bei diskrete Variablen mit wenigen Kategorien

Urlaubsziele der Deutschen (2015)

o ein Kreissegment für jeden vorkommenden Wert bzw. jede Kategorie der Variablen o Größe des Kreissegments kennzeichnet die Häufigkeit des Auftretens des entsprechenden Variablenwertes bzw. der Kategorie Polygon: („Vieleck“) Verwendung: Darstellung von Häufigkeiten für alle Werte einer Variable, geeignet für diskrete Variablen, [durch die Zuordnung von Häufigkeiten zu jedem Wert (unabhängig ob die Merkmalsausprägung vorkommt) Illusion der Kontinuität & keine Aussage über Lücken in der Verteilung] o x-Achse (Abzisse) kennzeichnet die Merkmalsausprägungen/Variablenwerte o y-Achse (Ordinate) kennzeichnet die Häufigkeit des Auftretens der entsprechenden Merkmalsausprägung

Diagramme für Verteilungen: Histogramm: Verwendung: Darstellung von Häufigkeiten und Prozentwerten (Ähnlichkeit zu Balkendiagrammen, Polygonen) in Verteilungen, also geeignet für kategorisierte kontinuierliche Variablen, ebenfalls Aussage über ggf. Lücken in der Verteilung möglich o Höhe des Balkens kennzeichnet die Häufigkeit des Auftretens des entsprechenden Variablenkategorie (ein Balken für eine Kategorie, nicht für einzelne Variablenwerte) → Histogramm: Balkendiagramm für die Häufigkeit von Kategorien in der Verteilung einer kontinuierlichen Variable Boxplot: Verwendung: graphische Darstellung verschiedener Kennwerte – Median, Quartilgrenzen, Interquartilabstand, Maximum, Minimum, Range (bereinigt) – sowie Ausreißer- und Extremwerte! daher besonders bedeutend für Ausreißeranalyse o Ausreißer- und Extremwerte: o Werte, die sich deutlich von den anderen unterscheiden, das Ergebnis stark verzerren und daher vor einer statistischen Datenanalyse bereinigt werden müssen o Festlegung von Ausreißer- und Extremwertgrenzen: (Kriterien zur Bereinigung, Tukey 1977) o Ausreißerwerte → striktes Kriterium: Werte, die mehr als das 1,5-fache des Interquartilabstands (IQA) über der 3.Quartilgrenze bzw. unter der 1.Quartilgrenze liegen o Obergrenze: 𝑄3 + 1,5 ∗ 𝐼𝑄𝐴 o Untergrenze: 𝑄1 − 1,5 ∗ 𝐼𝑄𝐴 o Extremwerte → liberales Kriterium: Werte, die mehr als das 3-fache des Interquartilabstands (IQA) über der 3.Quartilgrenze bzw. unter der 1.Quartilgrenze liegen o Obergrenze: 𝑄3 + 3 ∗ 𝐼𝑄𝐴 o Untergrenze: 𝑄1 – 3 ∗ 𝐼𝑄𝐴 Range (bereinigt)

Minimum

Maximum

Interquartilabstand (𝐼𝑄𝐴 = 𝑄3 − 𝑄1)

Stem-and-Leaf Plot: (“Stängel & Blatt”) Verwendung: Abbildung der exakten Werte aller Probanden, Kompromiss aus graphischer & nummerischer Darstellung o Anzahl hintereinander stehender Ziffern in einer Zeile kennzeichnet die Häufigkeit o Aufbau einzelner Zeilen: o links am Anfang: „stem“ – Anfang der Zahl, den alle Werte der Zeile gemeinsam haben o anschließend: „leaf“ – für jeden in die Zeile gehörenden Wert nur die letzte Ziffer angegeben

Beispiel – 3. Zeile – Alterswerte: 25, 25, 27, 27, 28, 28, 29, 29 (gesamt 8 Werte in der Kategorie 20-29)

Diagramme für Mittelwerte: Balkendiagramm: Verwendung: Darstellung von Kennwerten in ordinal- und intervallskalierten Datensätzen, insbesondere Darstellung von Mittelwerten (auch zur Dars...


Similar Free PDFs