Hausarbeit Statistik (R-Studio) PDF

Title	Hausarbeit Statistik (R-Studio)
Author	Lara Grabosch
Course	Datenerhebung & Statistik
Institution	FOM Hochschule
Pages	25
File Size	765.9 KB
File Type	PDF
Total Downloads	15
Total Views	155

Preview

CLICK TO PREVIEW PDF

Summary

Statistik, R-Studio...

Description

FOM Hochschule für Oekonomie & Management Standort Hamburg

Berufsbegleitender Studiengang Betriebswirtschaft und Wirtschaftspsychologie

2. Semester

Seminararbeit in Datenerhebung und Statistik „Schooldays“

Betreuer(in): Autorin: Matrikelnr: Abgabedatum:

Dr. rer. pol. Heike Bornewasser-Hermes Lara Grabosch 517049 23.02.2020

Inhaltsverzeichnis Tabellenverzeichnis.....................................................................................................................2 Abbildungsverzeichnis................................................................................................................2 1 Beschreibung des Datensatzes.................................................................................................3 2 Hypothesen..............................................................................................................................4 3 Deskriptive Statistik.................................................................................................................5 3.1 Herkunft der Kinder – „Race“.......................................................................................6 3.2 Geschlecht – „Sex“........................................................................................................7 3.3 Klassenstufe – „School“................................................................................................8 3.4 Lerntyp – „Learner“.......................................................................................................9 3.5 Fehltage – „Absent“.....................................................................................................10 4 Hypothesenprüfung................................................................................................................13 4.1 Herkunft und Lerntyp..................................................................................................13 4.2 Klassenstufe und Lerntyp............................................................................................15 4.3 Anzahl der Fehltage und Klassenstufe.........................................................................18 4.4 Fehltage und Geschlecht..............................................................................................19 5 Diskussion..............................................................................................................................22 5.1 Zusammenfassung.......................................................................................................22 5.2 Grenzen........................................................................................................................22 5.3 Anregungen..................................................................................................................23

1

Tabellenverzeichnis Tabelle 1: Übersicht über die relevanten Variablen....................................................................5 Tabelle 2: Kontingenztabelle zu Herkunft und Lerntyp............................................................14 Tabelle 3: Kontingenztabelle zu Klassenstufe und Lerntyp......................................................16 Tabelle 4: Orientierungstabelle zur Ermittlung der Effektstärke von Cohens Delta................21

Abbildungsverzeichnis Abbildung 1: Balkendiagramm zur Visualisierung des Anteils an Kindern nach Herkunft (eigene Darstellung)....................................................................................................................6 Abbildung 2: Kreisdiagramm zur Visualisierung der prozentualen Verteilung der Geschlechter (eigene Darstellung)....................................................................................................................7 Abbildung 3: Balkendiagramm zur Visualisierung der prozentualen Verteilung der Kinder auf die Klassenstufen........................................................................................................................9 Abbildung 4: Kreisdiagramm zur Visualisierung der prozentualen Verteilung der untersch. Lerntypen (eigene Darstellung)................................................................................................10 Abbildung 5: Balkendiagramm zur Verteilung der Fehltage auf die Kinder (eigene Darstellung)...............................................................................................................................11 Abbildung 6: Boxplot zu der Anzahl der Fehltage (eigene Darstellung)..................................12 Abbildung 7: Balkendiagramm zu Lerntypen unterteilt nach ihrer Herkunft (eigene Darstellung)...............................................................................................................................13 Abbildung 8: Balkendiagramm zu Lerntypen unterteilt nach Schulart (eigene Darstellung). .15 Abbildung 9: Vergleichende Boxplots zur Anzahl der Fehltage innerhalb der Schularten (eigene Darstellung)..................................................................................................................18 Abbildung 10: Vergleichende Boxplots zur Anzahl der Fehltage von Jungen und Mädchen (eigene Darstellung)..................................................................................................................20

2

1 Beschreibung des Datensatzes Die vorliegende Hausarbeit analysiert den Datensatz „schooldays“. Dieser wurde der Webseite http://vincentarelbundock.github.io/Rdatasets/datasets.html entnommen. Er enthält von S. Quine erhobene Daten zu einer Stichprobe von 154 Schülern, welche er 1975 zum Schreiben seiner Doktorarbeit „Achievement Orientation of Aboriginal and White Adolescents“ (Leistungsorientierung von Aboriginees und europäischen Jugendlichen) erhob und verwendete. Zu erwähnen ist hierbei, dass Angaben von Kindern, die an länger andauernden Krankheiten während des Schuljahres litten, von der Studie ausgenommen wurden. Der Datensatz beinhaltet 154 Zeilen, bzw. Beobachtungen sowie 5 Spalten, bzw. Variablen. Zur Analyse des Datensatzes wird das Programm R-Studio verwendet. Dafür wird als erster Schritt der Datensatz als csv-Datei nach R-Studio mit folgendem Befehl importiert: > schooldays table(race) race aboriginal non-aboriginal 74 80

Es ist zu erkennen, dass von den insgesamt 154 Kindern 74 Kinder Aborigines und 80 Kinder Nicht-Aborigines. Die relativen Häufigkeiten der beiden Merkmalsausprägungen lassen sich zudem so berechnen: > table(race)/length(race) race aboriginal non-aboriginal 0.4805195 0.5194805

Daraus lässt sich ableiten, dass beide Merkmalsausprägungen einen beinahe gleich großen Anteil haben; der Anteil der Aborigines beträgt 48,05 Prozent, der Anteil der NichtAborigines beträgt 51,95 Prozent. Die Differenz beträgt lediglich 3,9 Prozent. Zur Visualisierung der Verteilung wird hier ein Balkendiagramm erstellt. > barplot(rel, col = "lightgreen", + names.arg =c("Aboriginees","Nicht-Aboriginees"), + xlab="Herkunft", + ylab="Anteil", + cex.axis = 0.6, + cex.lab=0.7, + ylim=c(0,1))

6

Abbildung 1: Balkendiagramm zur Visualisierung des Anteils an Kindern nach Herkunft (eigene Darstellung)

3.2 Geschlecht – „Sex“ Da es sich auch hier um eine nominalskalierte Variable handelt, bleibt das Vorgehen zur deskriptiven Vorstellung zu dem Vorgehen der ersten Variable unverändert. „Female“ steht hier für die Mädchen, „Male“ bezeichnet alle Jungen. > table(sex) sex female male 84 70

Insgesamt sind von den 154 betrachteten Kindern 84 Mädchen und 70 Jungen. Nun werden die relativen Häufigkeiten berechnet: > table(sex)/length(sex) sex female male 0.5454545 0.4545455

Daraus lässt sich die prozentuale Verteilung ableiten: 54,55 Prozent der Personen aus dem Datensatz sind weiblich, 45,45 Prozent sind männlich, es waren also im Verhältnis ein größerer Anteil an Mädchen an der Befragung beteiligt. Die Differenz beträgt hier 9,1 Prozent. Zur Visualisierung dieser Verteilung wird ein Kreisdiagramm erstellt.

7

> pie(rel, + labels = c("female","male"), + col = c("red","blue"))

Abbildung 2: Kreisdiagramm zur Visualisierung der prozentualen Verteilung der Geschlechter (eigene Darstellung)

3.3 Klassenstufe – „School“ Diese Variable hat vier Ausprägungen. F0 steht hier für die Grundschule; F1, F2 und F3 jeweils für die erste, zweite und dritte Klasse in der Sekundarstufe. Da die Ausprägungen in eine sinnvolle Reihenfolge gebracht werden können, handelt es sich hier um eine Ordinalskala. > table(school) school F0 F1 F2 F3 27 48 38 41 > table(school)/length(school) school F0 F1 F2 F3 0.1753247 0.3116883 0.2467532 0.2662338

Von 154 befragten Kindern gehen 27 noch zur Grundschule, was einem Anteil von 17,53 Prozent entspricht. 48 Kinder gingen in die erste Klasse der Sekundarstufe (Anteil: 31,69 Prozent), 38 Kinder gingen in die zweite Klasse der Sekundarstufe (Anteil: 24,68 Prozent) und insgesamt 26,62 Prozent besuchten die dritte Klasse der Sekundarstufe, was 41 Kindern entspricht. Zur Visualisierung wird ein Balkendiagram der relativen Häufigkeiten erstellt: > rel barplot(rel, col = "lightblue", + names.arg =c("Grundschule","Sekundarstufe 1","Sekundarstufe 2","Sekundarstufe 3"),

8

+ + + + +

xlab="Klassenstufe", ylab="Anteil", cex.axis = 0.6, cex.lab=0.7, ylim=c(0,0.4))

Abbildung 3: Balkendiagramm zur Visualisierung der prozentualen Verteilung der Kinder auf die Klassenstufen

Das Balkendiagramm verdeutlicht, dass die meisten Kinder die Sekundarstufe 1 besuchen und die wenigsten zum Zeitpunkt der Befragung zur Grundschule gehen.

3.4 Lerntyp – „Learner“ Bei der vorletzten Variablen handelt es sich ebenfalls um eine Nominalskala. Auch sie besitzt lediglich zwei Ausprägungen („average“ = durchschnittlicher Lerner und „slow“ = langsamer Lerner). Zuerst werden erneut die absoluten und relativen Häufigkeiten aufgestellt: > table(learner) learner average slow 85 69 > table(learner)/length(learner) learner average slow 0.5519481 0.4480519

9

85 Kinder lernen in einem durchschnittlichen Tempo, wohingegen 69 Kinder zu einem langsamen Lerntyp gehören. Daraus lässt sich schließen, dass 55,19 Prozent der Kinder dem durchschnittlichen Lerntyp entsprechen und 44,80 Prozent dem langsamen.

Zur Visualisierung wird ein Kreisdiagramm erstellt: > rel pie(rel, + labels = c("average","slow"), + col = c("green","red"))

Abbildung 4: Kreisdiagramm zur Visualisierung der prozentualen Verteilung der untersch. Lerntypen (eigene Darstellung)

3.5 Fehltage – „Absent“ Zur Darstellung der Ausprägungen einer metrischen Variablen in R eignet sich der Befehl „favstats“. > fav_stats(absent) min Q1 median Q3 max mean sd n missing 0 5 11 22 81 16.13636 15.90539 154 0

Die Aufstellung zeigt, dass die kleinste Anzahl an Fehltagen (min) 0 ist und die höchste Anzahl an Fehltagen (max) sich auf 81 beläuft. Deutlich zu erkennen ist außerdem, dass jeder Schüler eine Aussage zu seinen Fehltagen gemacht hat. (missing = 0) Alle Berechnungen werden auf der Grundlage von 154 (n = 154) Angaben getätigt. Das untere Quartil liegt bei Q1 = 5, was bedeutet, dass 75 Prozent aller Kinder länger als 5 Tage krank waren. Das obere Quartil liegt bei Q3 = 22, was bedeutet, dass 25 Prozent der 10

Kinder mehr als 22 Tage krank waren. Zusätzlich kann der Interquartilsabstand berechnet werden. > IQR(absent) [1] 17

50 Prozent der Kinder waren zwischen 5 und 22 Tagen krank. Das zentrale Intervall, in dem sich diese 50 Prozent befinden, umfasst 17 Tage. Durchschnittlich

waren

die

Kinder

16,14

Tage

krank

(mean

=

16,13636).

In der Regel weicht die Anzahl der Tage um ca. 15,9 (sd = 15,90539) Tage vom Mittelwert ab. Dies bedeutet, dass die meisten Kinder 16,14 +/- 15,90 Tage krank waren. Die Verteilung kann durch ein Balkendiagramm visualisiert werden: > > + + + + +

abs tally(absent) X 0 1 2 3 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 27 28 30 9 4 6 7 20 8 7 5 3 4 7 4 3 8 5 3 4 1 1 3 1 4 3 1 2 2 2 2 32 33 34 36 37 38 40 41 43 45 46 47 48 53 54 57 60 67 69 81 2 1 1 3 1 1 2 1 1 1 1 1 1 2 1 1 1 1 1 1

11

Es wird erneut deutlich, dass die meisten Kinder 5 Tage krank waren. Nun wird die Verteilung auf Ausreißer geprüft sowie die relevanten Lage- und Streuungsmaße zusammengefasst. Hierfür wird ein Boxplot erstellt. Zuerst werden die für den Boxplot wichtigen 5 Kennzahlen aufgestellt: > fivenum(absent) [1] 0 5 11 22 81

Anschließend werden die soeben aufgestellten 5 Kennzahlen anhand eines Boxplots visualisiert: > boxplot(absent,xlab="Anzahl Fehltage", horizontal=TRUE)

Abbildung 6: Boxplot zu der Anzahl der Fehltage (eigene Darstellung)

Der Boxplot zeigt, dass es nach oben 8 Ausreißer gibt, nach unten hingegen lassen sich keine Ausreißer erkennen. Der zuvor bereits errechnete Interquartilsabstand (IQR=17) wird hier durch die Box sichtbar, welche durch Q1=5 nach links und Q3=22 nach rechts abgegrenzt ist. Dadurch, dass der Median in der Nähe des unteren Quartils liegt, lässt sich auf eine rechtsschiefe Verteilung schließen. Die Größe der Box im Verhältnis zum gesamten Boxplot lässt eine geringe Varianz vermuten.

12

4 Hypothesenprüfung 4.1 Herkunft und Lerntyp Zwischen der Herkunft der Kinder und dem Lerntyp besteht ein Zusammenhang. H1

Beide Variablen werden zunächst in einem Balkendiagramm dargestellt, um einen möglichen Zusammenhang zu visualisieren. > K barplot(K,xlab = "Herkunft", col = c("turquoise1","seagreen2"), legend = c("durchschnittlicher Lerner", "langsamer Lerner"))

Abbildung 7: Balkendiagramm zu Lerntypen unterteilt nach ihrer Herkunft (eigene Darstellung)

Zu erkennen ist hier eine leichte Differenz zwischen den Aborigines und den NichtAborigines insofern, dass hier eine höhere Merkmalsausprägung bei den durchschnittlichen Lernern

vorliegt.

Das Diagramm lässt keinen Zusammenhang vermuten.

13

Da es sich bei den beiden Variablen um zwei nominalskalierte Variablen handelt, wird hier der Kontingenzkoeffizient berechnet, um einen möglichen Zusammenhang zu untersuchen. Hierfür wird zuerst eine Kontingenztabelle erstellt: > addmargins(K) race learner aboriginal non-aboriginal Sum average 40 45 85 slow 34 35 69 Sum 74 80 154

Die Zeilen stehen hierbei für die Herkunft der Kinder und die Spalten für den Lerntyp.

Die Kontingenztabelle wird zur besseren Übersicht in einer vereinfachten Form dargestellt: Lerntyp

Herkunft Aboriginee

Gesamt

Nicht-Aboriginee

durchschnittlich langsam Gesamt

40 34 74

45 35 80

85 69 154

Tabelle 2: Kontingenztabelle zu Herkunft und Lerntyp

Anschließend wird die Kontingenztabelle der bedingten relativen Häufigkeiten erstellt: > prop.table(K) race learner aboriginal non-aboriginal average 0.2597403 0.2922078 slow 0.2207792 0.2272727

Anschließend wird der Kontingenzkoeffizient errechnet. Hierfür wird im ersten Schritt eine Matrix mit den absoluten Häufigkeiten erstellt und im Anschluss die erwarteten Häufigkeiten berechnet: >K race learner aboriginal non-aboriginal average 40 45 slow 34 35

> b for (i in 1:nrow(a)) + {for (j in 1:ncol(a)) + b[i,j]b [,1] [,2] [1,] 40.84416 44.15584 [2,] 33.15584 35.84416

14

Sowohl bei den Aborigines als auch bei den Nicht-Aborigines ist der Anteil an langsam lernenden Kindern geringer. Es besteht also voraussichtlich kein Zusammenhang, da die Tendenz gleich ist. Weiter wird Chi-Quadrat berechnet: > chi [1] 0.07495795

Damit kann der Kontingenzkoeffizient errechnet werden: >K [1] 0.02205682

Um allerdings eine konkrete Aussage über den Zusammenhang zwischen der Herkunft und dem Lerntyp zu treffen, muss der korrigierte Kontingenzkoeffizient errechnet werden: > M M [1] 2

> Kmax Kmax [1] 0.7071068

> Kcorr Kcorr [1] 0.03119305

Der

korrigierte

Kontingenzkoeffizient

liegt

bei

0,031.

Liegt

der

korrigierte

Kontingenzkoeffizient zwischen 0 und 0,2 besteht kein Zusammenhang zwischen den beiden Variablen und er gibt keine Richtung vor. Grundsätzlich kann der korrigierte Kontingenzkoeffizient zwischen -1 und 1 liegen. Da er in diesem Fall mit 0.031 < 0.2 ist, besteht kein signifikanter Zusammenhang zwischen der Herkunft der Kinder und des Lerntyps. H01 wird also nicht angelehnt.

4.2 Klassenstufe und Lerntyp H2

Die Klassenstufe hat einen signifikanten Einfluss auf den Lerntyp.

Um die Variablen anhand des richtigen Verfahrens zu messen, werden diese erst einmal grafisch verglichen. > K barplot(K,xlab = "Schulart", col = c("lightgreen","lightpink"), legend = c("durchschnittlicher Lerner", "langsamer Lerner"))

Abbildung 8: Balkendiagramm zu Lerntypen unterteilt nach Schulart (eigene Darstellung)

Es ist zu erkennen, dass die Kinder in der Grundschule zu einem Großteil durchschnittliche Lerner waren. In der ersten und zweiten Klasse der Sekundarstufe scheint es einen Wandel zu geben, der Großteil der Kinder ist ein langsamer Lerntyp. Die letzte Klasse der Sekundarstufe hingegen zeichnet sich wieder durch einen größeren Anteil an durchschnittlichen Lernern aus, der Anteil an langsamen Lernern hat sich zu einem kleinen Anteil verringert. Da es sich bei den beiden Variablen um zwei nominalskalierte Merkmale handelt, wird der Kontingenzkoeffizient wie in Hypothese H1 zur Zusammenhanganalyse zu Rate gezogen. Das Vorgehen unterscheidet sich hier nicht. Zuerst wird hier die Kontingenztabelle erstellt: > addmargins(K) school learner F0 F1 F2 F3 Sum average 19 17 16 33 85 slow 8 31 22 8 69 Sum 27 48 38 41 154

Die Kontingenztabelle in vereinfachter Form: Lerntyp Grundschul e

Klassenstufe Sekundar 1 Sekundar 2

16

Gesamt Sekundar 3

durchschnittlich langsam Gesamt

19 8 27

17 31 48

16 22 38

33 8 41

85 69 154

Tabelle 3: Kontingenztabelle zu Klassenstufe und Lerntyp

Die Zeilen stehen hierbei für die Schulart und die Spalten für den Lerntyp der Kinder. Als nächstes wird die Kontingenztabelle der bedingten relativen Häufigkeiten erstellt: > prop.table(K) school learner F0 F1 F2 F3 average 0.12337662 0.11038961 0.10389610 0.21428571 slow 0.05194805 0.20129870 0.14285714 0.05194805

Wie bereits im grafischen Vergleich der Variablen festgestellt, erkennt man eine Tendenz zu der Annahme, dass Kinder in der ersten und zweiten Sekundarstufe (F0 und F1) eher zu einem langsamen Lerntyp gehören und in der dritten Sekundarstufe (F3) sowie der Grundschule (F0) ein

Großteil der Kinder ein durchschnittliches Lerntempo an den Tag legen.

Im Folgenden wird der Kontingenzkoeffizient errechnet.

Dies geschieht zunächst unter der Berechnung der erwarteten Häufigkeiten: >K school learner F0 F1 F2 F3 average 19 17 16 33 slow 8 31 22 8 > a b for (i in 1:nrow(a)) + {for (j in 1:ncol(a)) + b[i,j]b [,1] [,2] [,3] [,4] [1,] 14.9026 26.49351 20.97403 22.62987 [2,] 12.0974 21.50649 17.02597 18.37013

Weiter wird Chi-Quadrat berechnet: > chi chi [1] 23.34575

Damit kann der Kontingenzkoeffizient errechnet werden: > K K [1] 0.3628219

Abschließend wird der korrigierte Kontingenzkoeffizient errechnet: > M M [1] 2 > Kmax Kmax [1] 0.7071068 > Kcorr Kcorr [1] 0.5131077

Der

korrigierte

Kontingenzkoeffizient

lautet

0,513.

Liegt

der

korrigierte

Kontingenzkoeffizient zwischen 0,4 und 0,6 besteht ein mittlerer Zusammenhang zwischen...