Zusammenfassung Statistik Theorieeinheit 1 PDF

Title	Zusammenfassung Statistik Theorieeinheit 1
Course	Statistik
Institution	Universität Salzburg
Pages	21
File Size	1.3 MB
File Type	PDF
Total Downloads	65
Total Views	136

Preview

CLICK TO PREVIEW PDF

Summary

Zusamenfassung...

Description

Zusammenfassung Statistik Theorieeinheit 1 Absolute Häufigkeiten: Häufigkeit = Wie häufig treten bestimmte Ausprägungen eines Merkmals auf? Beispiel: Würfelspiel Wir haben einen Würfel, und dieser Würfel hat 6 Seiten. X beschreibt die Augenzahl; x1, x2, x3, … xJ xj beschreibt die letzte größtmögliche Ausprägung Omegax Werteraum, 1,2,3,4,5,6 (wobei 6 = xj) J beschreibt die Summe der Ausprägungen, hat in unserem Fall 6 mögliche Ausprägungen

Häufigkeiten sind die grundlegendste Form einer Statistik und können für alle Arten und Merkmalen berechnet werden, unabhängig von ihrer Skalierung. Modus = Ausprägung xj mit der höchsten absoluten Häufigkeit. Gemeinsam bilden die absoluten Häufigkeiten aller Ausprägungen (Summe der absoluten Häufigkeiten h1, h2, hj) die absolute Häufigkeitsverteilung des Merkmals X. Berechnung der absoluten Häufigkeitsverteilung in R: >table (X) (=Häufigkeitstabelle mit absoluten Häufigkeiten)

Beispiel Friends-Fow

Aufteilung der Gelder basierte auf folgendem Prinzip: Die Teammitglieder standen sich gegenüber, und diese Spieler mussten gegeneinander um Geld spielen. Unter dem Tisch gab es 2 Knöpfe, einer mit «Friend», und einer mit «Foe».

Wenn beide Spieler Friend genommen haben, und sie beispielsweise 5.000 Euro erspielt haben, so bekam jeder Spieler die Hälfte der 5.000 Euro. Hat nur ein Spieler Friend genommen, der andere aber Foe, so bekam nur der was, der Foe genommen hat. Der andere ging leer aus. Haben hingegen beide Foe genommen, so gingen beide leer aus. In der Spieltheorie spricht man auch von einer abgewandelten Form des sogenannten «Gefangenendilemma». Für jeden der Spieler ist es vorteilhaft, Foe und nicht Friend zu wählen. Verhalten sich allerdings beide so, dann bekommen sie garnichts und es wäre besser gewesen, Friend zu nehmen. Aus Sicht der Spieltheorie ist das Ergebnis relativ einfach vorherzusehen. Für jeden Spieler ist es optimal, Foe zu wählen. Denn wählt der andere Friend, dann bekommt man alles, und wählt der andere Foe, so ist es so oder so schon egal, da man dann verliert. Übung in RStudio

getwd() = Ich kann sehen, welcher mein Standard-Arbeitsplatz ist list.files() = zeigt mir an, welche Dateien in diesem Ordner sind load() = Ich kann diese Ordner/Dateien laden, dann werden sie mir rechts oben angezeigt

View() = Daten ansehen, die in den Datensätzen von .RData oder .rda drinnen sind Achtung: Alle Befehle in R sind case sensitive, das bedeutet, dass man auf die Groß- und Kleinschreibung besonders achten muss Gebe ich den Befehl View() ein, so wird mir die Urliste der Datei angezeigt. Die Urlsite ist die Übersicht über meine Daten. Jede Zeile steht für einen einzelnen Spieler. Eine andere Möglichkeit die Daten zu inspizieren liefert der Befehl head(). Head zeigt uns die ersten 6 Zeilen des Dokuments. nrow() = gibt uns die Anzahl der Zeilen des Datensatzes names() = Listet alle variablen Namen auf Nun wollen wir uns ansehen, wie viele Spieler Friend, und wie viele Spieler Fow gewählt haben. Dazu verwenden wir den Befehl table(). Um das Merkmal innerhalb eines Datensatzes anzusprechen, geben wir zuerst den Namen des Datensatzes ein, und danach ein Dollarzeichen ein, und danach den Namen des Merkmals. Beispiel: table(fof$play)

Hier sehen wir, dass die größte Ausprägung foe mit einer absoluten Häufigkeit von 247 ist. Daher ist unser Modus foe. Anzeige der Häufigkeitsverteilung mit der Summe: addmargins(table(fofp$play)) Darstellung der Häufigkeitstabelle als Säulendiagramm: barplot(table(fofp$play))

barplot(table(fofp$play), main = "Häufigkeitsverteilung für 'Friend' und 'Foe'" = Namensgebung des Diagramms ylab = "Absolute Häufigkeit", Y-Achse beschriften ylim = c(0, 250), von welchen Ausgangswert bis zu welchem Endwert sich die Säulen erstrecken sollen xlab = "Wahl des Spielers", X-Achse beschriften names.arg = c("Foe", "Friend")) , Säulen beschriften

Relative Häufigkeiten

fj= relative Häufigkeit, mit der das Merkmal X die Ausprägung des xj vorkommt. Die relative Häufigkeit ist also nichts anderes als die absolute Häufigkeit dividiert durch die Anzahl der Beobachtungen. Dafür gilt, dass die relativen Häufigkeiten strikt zwischen null und eins liegen müssen, und dass die Summen der relativen Häufigkeiten 1 ergeben müssen. Gemeinsam bilden die relativen Häufigkeiten aller Ausprägungen (f1, f2, … fj) die relative Häufigkeitsverteilung des Merkmals X. n bezeichnet die Größe der Stichprobe. ACHTUNG: relative Häufigkeit ist nicht die prozentuelle Häufigkeit! Die prozentuelle Häufigkeit ist fj * 100. Berechnung der relativen Häufigkeit in R: prop.table(table(X)) Hier verfolgen wir wieder das Prinzip, dass der Befehl ein Ergebnis eines anderen Befehles verlangt. prop.table verlangt eine Häufigkeitstabelle mit absoluten Häufigkeiten. Würden wir hier anstelle der Häufigkeitstabelle nur das Merkmal eingeben, so würden wir eine Fehlermeldung erhalten.

Beispiel in RStudio

Relative Häufigkeitsverteilung in R: prop.table(table(fofp$play)) Summe der relativen Häufigkeitsverteilung: addmargins(prop.table(table(fofp$play))) Säulendiagram: barplot(prop.table(table(fofp$play)), main = "Häufigkeitsverteilung für 'Friend or Foe'", ylab = "Relative Häufigkeit",

ylim = c(0, 0.6), xlab = "Wahl des Spielers", names.arg = c("Foe", "Friend"))

Beispiel:

Kontingenz Wie häufig treten bestimmte Kombinationen einer Ausprägung zweier Merkmale einer statistischen Einheit gleichzeitig auf?

Haben wir also zwei Merkmale x und y, mit den Ausprägungen x1 bis xj, und y1 bis yk mit derselben statistischen Einheit, so bezeichnet man das als Kontingenz. Die Kontingenz hjk bezeichnet die absolute Häufigkeit, mit der das Merkmal x die Ausprägung xj und y die Ausprägung yk annimmt. Sind J und K jeweils die Anzahl der Ausprägungen von X und Y, sind insgesamt J * K Kombinationen von Merkmalsausprägungen möglich. Kontingenztabelle

Diese Kontingenzen können in einer Kontingenztabelle dargestellt werden.

Dabei ist ein Merkmal (in diesem Beispiel x) das sogenannte Zeilenmerkmal/Zeilenvariable, weil x in der Zeile steht. Y ist das Spaltenmerkmal/die Spaltenvariable, weil die Ausprägungen von y in den Spalten steht. Innerhalb der Tabelle sehen wir die absoluten Häufigkeiten hjk. Das heißt, der erste Index steht immer für die Zeile, der zweite steht für die Spalte. H11 = die absolute Häufigkeit mit der die erste Ausprägung des xMerkmals mit der ersten Ausprägung des y-Merkmals vorkommt. H12 = absolute Häufigkeit, mit der die erste Ausprägung des x-Merkmals, und die zweite Ausprägung des y-Merkmals eingetreten ist. Randhäufigkeiten = geben uns die Summe der absoluten Häufigkeiten an, entweder über die Zeilen oder die Spalten hinweg. Die Randhäufigkeit h+1 wäre die Summe über alle Zeilen für die erste Ausprägung des ersten xMerkmals. Diese Summe über alle Zeilen wird mit dem Pluszeichen verdeutlicht. Auf der anderen Seite wäre h1+ die Summe der absoluten Häufigkeiten für die erste Zeile. Diese Randverteilungen müssen wieder der absoluten Häufigkeitsverteilung der einzelnen Merkmale entsprechen. Die Summe aller Einträge in der Kontingenztabelle müssen wiederum die Anzahl der Beobachtungen n ergeben.

Kontingenztabelle mit relativen Häufigkeiten

Dividiert man hjk durch n, so bekommt man eine Kontingenztabelle mit relativen Häufigkeiten. In diesem Fall entsprechen die Randverteilungen den relativen Häufigkeitsverteilungen der einzelnen Merkmale. Hier muss auch gelten, dass alle relativen Häufigkeiten strikt zwischen null und eins liegen müssen, und dass die Summe aller Einträge der Spalten und Zeilen wieder 1 ergeben muss.

Befehle in R

Berechnung in R: - Kontingenztabelle mit absoluten Häufigkeiten: >table(X,Y); wir geben zwei Merkmale an, das erste Merkmal ist unser Zeilenmerkmal, das zweite Merkmal ist das Spaltenmerkmal - Kontingenztabelle mit Randverteilung >addmargins(table(X,Y)) - Kontingenztabelle mit relativen Häufigkeiten: >prop.table(table(X,Y)) - Kontingenztabelle mit relativn Häufigkeiten und Randverteilung: >addmargins(prop.table(table(X.Y)))

Beispiel in R

Wir verwenden nun als statistische Einheit nicht mehr die einzelnen Spieler, sondern unsere statistische Einheit ist nun das Spiel als Gesamtes.

Der Grund dafür ist, dass wir uns ansehen wollen, wie oft die Kombination der beiden Wahlmöglichkeiten gemeinsam aufgetreten sind.

Hier sehen wir, dass 72-mal beide Spieler foe gewählt haben, und 52-mal haben beide Spieler friend gewählt. 60-mal hat der erste Spieler Friend, und der zweite Spieler foe gewählt, und 43-mal hat der erste Spieler friend, und der zweite Spieler foe gewählt. Gibt man den Befehl nun zusätzlich mit addmargins ein, so erhält man die Randhäufigkeiten dazu.

Nun können wir uns noch ansehen, ob sich das Antwortverhalten zwischen der ersten und der zweiten Staffel verändert hat. Wir verwenden dazu den Datensatz auf Spielerebene, weil wir uns für die Entscheidungen des einzelnen Spielers interessieren. Und wir verwenden das Merkmal für die Season, das ibt uns an, ob ein Spiel in der ersten oder in der zweiten Staffel stattgefunden hat.

Hier sehen wir, dass in der ersten Staffel öfter Friend als foe gewählt wurde. Nun kann auch wieder ein Säulendiagramm erstellt werden.

Hier werden die absoluten Häufigkeiten aufeinander gestaffelt. Die erste Zeile steht unten, die zweite Zeile steht darüber. Es ist eine grafische Darstellung der Kontingenztabelle. Worauf man bei der grafischen Darstellung einer Kontingenztabelle aber niemals vergessen soll ist der Befehl >legend.text=TRUE ! Der Befehl sagt R nämlich, zusätzlich noch eine Legende anzufertigen, damit man weiß, welche Farbe für welche Ausprägung steht.

Bedingte und relative Häufigkeiten

Gegeben haben wir zwei Merkmale X und Y mit den Ausprägungen (x1 bis xj, y1 bis yk) derselben statistischen Einheiten. Dann bezeichnet die relative bedingte Häufigkeit der Ausprägung xj, gegeben die Ausprägung yk die relative Häufigkeit der Ausprägung xj für das Merkmal X, unter allen statistischen Einheiten, für die Y die Ausprägung yk annimmt. Das ist also die Kontingenz der Ausprägung hjk dividiert durch die Randhäufigkeit h+k, also für die Ausprägung K des Merkmals Y summiert über alle Ausprägungen des X Merkmals hinweg. Analog dazu bezeichnet die bedingte relative Häufigkeit von yk gegeben eine bestimmte Ausoprägung von xj die relative Häufigkeit der Ausprägung von Y = yk, unter allen statistischen Einheiten, für die das Merkmal X die Ausprägung xj annimmt.

Wir können aus einer Kontingenztabelle also zwei Arten bedingter relativen Häufigkeiten berechnen. Einmal die bedingte Häufigkeit für das Y-Merkmal, gegeben einer bestimmten Ausprägung des X-Merkmals, und einmal die bedingte Häufigkeit für das X-Merkmal gegeben einer bestimmten Ausprägung des Y-Merkmals. Die Randhäufigkeiten müssen sich dabei über die bedingte Ausprägung immer auf 1 summieren.

Berechnung in R

-

Bedingte relative Häufigkeit gegeben die Zeilenvariable X >prop.table(table(X,Y), margin = 1) Bekannterweise verlangt dieser Befehl eine Häufigkeitstabelle oder eine Kontingenztabelle als Eingabe.

-

Mit Randhäufigkeiten >addmargins(prop.table(table(X,Y), margin = 1), margin = 2)

-

Bedingte relative Häufigkeit gegeben der Spaltenvariable Y >prop.table(table(X,Y), margin = 2)

-

Mit Randhäufigkeiten >addmargins(prop.table(table(X,Y), margin=2), margin=1)

Merke: Margin steht für Rand. Margin = 1 beschreibt die Randhäufigkeit der Zeilenvariable, während margin=2 die Randhäufigkeit der Spaltenvariable zeigt. Geben wir margin=1 ein, dann werden die Einträge der Kontingenztabelle durch die Randhäufigkeit des Zeilenmerkmals dividiert, geben wir margin=2 an, dann werden die Einträge durch die Randhäufigkeit des Spaltenmerkmals dividiert.

Beispiel in R

Gegeben dieser Ausprägung der Zeilenvariable (Spielerin war weiblich), haben 52,5% foe, und 46,5% friend gewählt. Gegeben, dass es sich um einen männlichen Spieler gedreht hat, wurde in 55,4% der Fälle foe gewählt, und nur in 44,6% der Fälle friend. Frauen haben also relativ gesehen, häufiger friend gewählt als Männer.

Wenn ich diesen Befehl noch eingebe, so erhalte ich die Randbedingungen der Zeilenvariable. Nun betrachten wir einen anderen Fall:

Hier schauen wir, wie viele in der ersten und zweiten Staffel friend, und wie viele in der ersten und zweiten Staffel foe gewählt haben. Wir wollen aber nun. Berechnen, die bedingte relative Häufigkeit der Wahl zwischen friend oder foe, gegeben der Spaltenvariable. Das bedeutet, gegeben dass ein Spieler der ersten Staffel gespielt hat, oder dass ein Spieler in der zweiten Staffel gespielt hat. Wenn wir die Spaltenvariable als Bedingung setzen wollen, dann verwenden wir die Bedingung margin=2. Das ergibt folgendes: In der ersten Staffel haben 46.9 % foe, und 53 % friend gewählt. In der zweiten Staffel haben 58.6 % foe, und 41.3% friend gewählt.

Auch hier lässt sich ein Diagramm wieder sehr gut erstellen. ACHTUNG: Ein Diagramm lässt sich NUR gut erstellen, wenn wir eine bedingte relative Häufigkeit mit einer Spaltenvariable darstellen! Um das zu überprüfen = Summe muss immer 1 sein!

Kontingenztabelle für mehr als zwei Merkmale

Kontingenztabellen sind prinzipiell zweidimensional. Man hat eine Spaltenund eine Zeilenausprägung.

Angenommen, wir haben drei Merkmale (X,Y,Z), und wir möchten die Ausprägungen des Merkmals Z für alle Kombinationen der Merkmale X und Y darstellen. Wir möchten X und Y also interagieren. Das bedeutet, wir möchten alle J*K Merkmalskombinationen von X und Y. Die daraus resultierende Interaktionsvariable und Z können wir in einer Kontingenztabelle darstellen. In R verwendet man den Befehl >interaction(). Interection bildet die Interaktion zweier Merkmale. Verwenden wir dies in einem Tablebefehl, so sind die beiden eine Zeilenvariable, und Z bildet die Spaltenvariable.

Beispiel in R

Sex ist das Geschlecht des ersten Spielers, Sex 1 ist das Geschlecht des Gegenspielers. Wofür ich mich hier also interessiere, ist ob eine Frau gegen eine Frau spielt, eine Frau gegen einen Mann, ein Mann gegen eine Frau, oder ein Mann gegen einen Mann. Hier wird als Zeilenmerkmal das Merkmal Play gewählt, also ob friend oder foe gewählt wurde. Die Spaltenmerkmale sind sex und sex1, da wir das Geschlecht dazu wissen wollen. Hier finden wir, dass wen 2 Frauen gegeneinander spielen, so wählen 50% der Frauen friend, hingegen wenn zwei Männer gegeneinander spielen, so wählen nur 45.7% friend. Auch dieses Ergebnis kann man in einem Barplot wieder darstellen.

Zusammenfassung zur Erstellung von Diagrammen...