Zusammenfassung STA2 PDF

Title Zusammenfassung STA2
Course Statistik 2
Institution Berner Fachhochschule
Pages 67
File Size 5 MB
File Type PDF
Total Downloads 92
Total Views 123

Summary

Herbstsemester...


Description

Zusammenfassung STA2 Kapitel 13 Samples an Surveys In STA1 hatten wir eine andere Situation: -

Volle Informationen è hier waren keine Unsicherheiten Was wir gemacht haben: Describtive statistics

In STA2 -

Wir haben nur einige Informationen è Beispiel mit Schokolade: diese müssen wir brechen Das ist die sogenannte inductive statistics è = unsichere Variablen

Erstes Beispiel: Auto des Jahres Es werden laufend neue Autos gekauft. Jeder Käufer kann einen Umfragebogen ausfüllen:

Erläuterungen: -

Es gibt eine Grundgesamtheit (Population): Alle Personen die ein neues Auto gekauft haben Von dieser Grundgesamtheit, füllt aber nicht jeder den Fragebogen aus è das ist das sogenannte „Sample“ - Aufgrund der ausgefüllten Umfrage ergibt sich aber das dann Auto des Jahres è Entscheidende Frage: Wie Vertrauenswürdig ist das erhaltene Resultat? Definition von verschiedenen Begriffen: Population = die Grundgesamtheit; Alle und wirklich alle, die ein neues Auto gekauft haben Sample = ist ein Teil dieser Grundgesamtheit; Diejenigen, die ein neues Auto gekauft haben und auch den Fragebogen ausgefüllt haben! è Das wichtigste hier ist, dass der Sample repräsentativ ist! Wie repräsentiert der Sample die ganze Population? Was bedeutet Repräsentativität? -

-

Ein Sample ist repräsentativ wenn: o Es die Gesamtheit der Population abdeckt è Die gleiche Proportion muss im Sample sein; Beispiel: 1000 neue Autos wurden gekaut, 200 gelbe, 500 rote, 100 blaue, 200 schwarze; dann muss dieses Verhältnis ebenfalls genauso sein im Sample o Eigentlich wird die Population nur herunter gebrochen Wenn ein Sample nicht repräsentativ ist, dann spricht man von „bias“, das heisst, dass Verhältnis von den Farben ist nicht wie in der Population! o Beispiel: Der Wahlkampf zwischen Landon und Roosevelt è hier wurde ein ganz falscher Sample genommen: 10 Mio war Pop. Und 2 Mio das Sample 1

Gallup Poll è Gallup Umfrage; Was ist beim Wahlkampf schief gelaufen? -

In diesem Zeitraum (1963) war eine grosse Depression in den USA Nicht jeder konnte sich ein Telefon oder eine abonnierte Zeitschrift leisten! Die Umfrage war nur zugänglich zu Personen die eben ein Telefon oder eine Zeitschrift hatten! è Diese tendierten dazu Roosevelt zu wählen

Was ist richtig gelaufen? è

George Gallup hat auch eine Umfrage gemacht, allerdings nur mit 50‘000 Teilnehmer Er hat den Wahlkampf richtig voraus gesagt Die Methode, die Gallup erfunden hat, ist heute noch gültig Was lernen wir daraus? Die Grösse einer Umfrage ist wichtig, aber nicht die entscheidende Zutat!

Ein Experiment von Zufälligkeit (Randomness) -

Die beste Methode um eine Repräsentativität zu erhalten ist die Zufälligkeit è Die Auswahl erfolgt zufällig - Beispiel: Lotto o Die meisten Lotto Spieler wählen ein Muster, sodass in jeder Reihe eine Zahl angekreuzt wird o Aber dieses Vorgehen ist völlig falsch o Die Wahrscheinlichkeit, dass zwei aufeinanderfolgende Zahlen kommen liegt bei 56% è Von Menschenhand kann keine gute Zufälligkeit gewährleistet werden! Wir suchen eigentlich immer ein Muster Im TR

Erläuterungen: -

Der Befehl „randSamp“ ergibt ein zufälliges Sample Das zufällige Sample soll zwischen der Zahl 1 und 42 gewählt werden; damit ich nicht jede Zahl aufschreiben muss kann ich den Befehl „seq“ eingeben Ich muss die beiden i am Anfang immer eingeben Die Zahl 6 sagt aus, dass ich 6 zufällig Zahlen möchte Die Zahl 1 sagt aus, dass sich die Zahlen nicht wiederholen dürfen und nur einmal vorkommen können!

Der Zufälligkeitsprozess Je homogener die Population ist, desto kleiner kann das Sample sein. Je heterogener ist, desto grösser muss das Sample sein. Inferantial statistics -

Wir brauchen das Sample um Aussagen über die ganze Population machen zu können! Je mehr Variation wir in einer Population haben, desto schwieriger ist es anhand des Samples aussagen machen zu können. 2

Sample Grösse (Sample sizes) -

Grosses „N“ bezeichnet die Grösse der Population è auch wenn noch gar nicht bekannt, wie gross diese eigentlich ist - Kleines „n“ bezeichnet die Grösse des Samples è „n“ ist deutlich kleiner als „N“; klein n muss aber gleichwohl genug gross sein è Grosse Populationen brauchen aber nicht grössere Samples Einfaches Zufälliges Sample (Simple Random Sample; SRS) Jeder Teilnehmer der Population hat die gleiche Möglichkeit Teil der Population zu sein. A sampling frame = eine Liste von Eigenschaften, aus denen das Sample bestehen sollte. è im besten Fall ist das die Population -

Beispiel: In der Schweiz kann jeder der über 18 ist wählen. Allerdings tut dies noch lange nicht jeder! Das sampling frame muss aber aus denjenigen bestehen, die tatsächlich gewählt haben

Im TR Wenn ich eine Liste mache mit Namen (als Beispiel) ist das das Sampling Frame! è Im TR, Kapitel 13, Liste „volunteers“ Ein passendes sampling Frame zu finden ist schwierig. Gerade bei einer Wahlumfrage -

Im amerikanischen System muss man sich auf einer Liste eintragen lassen, dass man überhaupt wählen kann è dort haben wir Zugang dazu - Was wir eigentlich wollen ist aber eine Liste von allen, die dann tatsächlich auch wählen gehen! è Das bedeutet, dass die Leute die wählen gehen nicht ein SRS sind von der ganzen Liste

Ein weiteres Problem: -

Manche Populationen existieren gar nicht erst è diese sind noch in Produktion

Wenn ein Bauer speziellen Dünger braucht, und er überprüfen will ob der Dünger tatsächlich wirkt. -

Wenn der Bauer nun 300 Orangen betrachtet, ist das die Population? o Nein! Die Population sind alle jetzigen Orangen und auch die zukünftigen Orangen

3

Schätzung der Parameter (estimating Parameters) Wir können folgende Grössen brauchen um Schätzungen zu machen: -

Mean (Durchschnitt) Variance Proportion (Grösse)

Erläuterungen: -

Für die Population werden die griechischen Buchstaben verwendet Für das Sample werden die Zeichen verwendet Was können wir nun aussagen, wenn wir die Werte aus dem Sample anschauen, über die ganze Population?

Sampling Variation Wir möchten etwas in Erfahrung bringen über die Parameter der Population. Dazu nehmen wir ein Sample und machen unser Statistik ding. Wir machen also ein SRS (simple Random Sample). Im TR è Kapitel 14,

Erläuterungen: -

-

Wenn ich ein SRS mache, dann erhalte ich jedes Mal einen anderen Wert für den Mean! è Die Samples sind jedesmal unterschiedlich, weil sie zufällig sind. Das heisst auch immer der Mean wird unterschiedlich sein! Dieser Prozess wird als sampling Variation bezeichnet! Nun wissen wir aber nicht, welcher Mean der richtige ist… Was machen wir jetzt?

Sampling Distribution Wie oben beschrieben ist der Mean eine sogenannte „random variable“. Die sampling Distribution ist die wahrscheinliche Verteilung von dieser „random variable“ 4

Beispiel: Ausgangslage, wir wissen vorerst noch nichts von unseren Kunden, wir handeln mit Kleider -

Was wir anhand von unseren Daten im System sehen ist: o Wie viel gekauft wird (Wert) o Was gekauft wird o Wann es gekauft wird - Wir wissen aber nicht, weshalb nichts gekauft wird! o Wie viele haben nichts gekauft? o Warum haben sie nichts gekauft? § Nichts passendes gefunden § Falsche Grösse / oder Frabe § Preise sind zu hoch è In diesem Fall können für eine Umfrage machen wenn die Kunden den Laden verlassen. (sogenannte Exit Surveys) Jede Umfrage braucht klare Strukturen. Was soll erreicht werden? -

Wir wollen die Population identifizieren und die Interesse Parameter erkennen können Kunden die nichts kaufen, sind die Population Die Parameter sind die Beweggründe warum nichts gekauft worden ist è wir wollen die Proportionen Es existiert kein Sampling Frame è es kann nicht jeder befragt werden, jemand muss die Interviews vornehmen Hier müssen auch diejenigen erfasst werden, die keine Angaben machen wollten!!!!

Alternative Methoden für das Sampling SRS (Simple Random sample) = Die befragten Personen werden zufällig ausgewählt SRS (Stratified Random Sample) = Die Population wird in homogene Segmente unterteilt (Beispiel: Männer und Frauen; in der Population haben wir 50% Männer und 50% Frauen; deshalb müssen wir auch im Sample diese Prozentzahlen haben) Cluster Sampling = Die Population wird in kleine aber viele homogene Gruppen unterteilt (Beispiel: Lokation ist wichtig für unsere Umfrage, die Antworten können abweichen wenn Leute aus der Stadt teilnehmen oder vom Land è Hier können wir eingreifen und sagen, dass wir die Schweiz auswerten wollen und dann nehmen wir von jedem Kanton ein SRS auswerten) Census = Alle aus der Population werden befragt Voluntary response = die Teilnahme ist freiwillig è diese Variante ist am häufigsten Convenience Samples = Hier werden die Leute aus der näheren Umgebung befragt, solche auf die man leicht zugreifen kann. Checkliste für eine Umfrage: -

Spiegelt das sampling Frame die Population wieder? Wie hoch ist die Rate, von den Personen die keine Antwort gegeben haben oder nicht teilnehmen wollten? Wie wurden die Fragen gestellt? Positiv oder negative? Wie wertet der Interviewer die Umfrage aus? Wie wählt er die befragten Personen aus? 5

-

Sind die Leute noch am leben, die an der Umfrage teilgenommen haben? è Wenn zum Beispiel eine Analyse hinsichtlich eines Medikament gemacht werden, dann findet man oft nur die positiven, die die überlebt haben. Die die daran gestorben sind können nicht mehr an der Umfrage teilnehmen!

Kapitel 14 Sampling Distribution of the mean Beispiel: GSP Chips: Der Hersteller muss sichergehen, dass die Chips auch funktionieren! Deshalb macht er ein Random Sampling um den Prozess zu testen. Er kann ja nicht alle testen. Der Test der hier gemacht wird, wird als HALT Testing bezeichnet: -

Highly Accelerated Life Tests

Ein solcher HALT Test hat 15 Schritte. Wenn der Chip bei einem Test nicht besteht, dann wird der Schritt bei dem er nicht bestanden hat notiert. Wenn er alle Tests besteht, dann erhält er die Punktzahl 16. Diese Tests sind vor Allem für Produktionsunternehmen gedacht. -

Wenn alle Chips an derselben Stelle versagen, dann kann einfach eruiert werden wo das Problem liegt - Aber leider gibt es eine gewisse Variation von den HALT Scores è Aus diesem Grund brauchen wir ein Random Sample Folgende Daten sind vorhanden: -

Der Chips sollte mindestens bis Schritt 7 am Leben bleiben (Mean) Und maximal eine Abweichung von 4 haben (Standard Deviation)

Im TR è Files von Vorlesung Kapitel 14 Es wurden an jedem Tag 10 Chips getestet. Diese schieden in verschiedenen Schritten aus. Aus diesen Daten in der Tabelle, muss ich folgendes machen: Schritt 1: Neue Seite öffnen mit „Data and Statistics“ Schritt 2: Histogramm erstellen è hier kann ich mit dem Menu, unter Punkt 5 „Säuleneinstellungen“ die Breite auswählen Schritt 3: wenn ich mit dem Cursor auf einen Balken gehen, zeigt es mir an, wie viele sich beim Schritt in dem HALT Test verabschiedet haben

6

Diese Grafik sagt aber noch nicht so viel aus. Nun können wir die Means von jedem Tag nehmen und nicht den einzelnen Score betrachten!

è Mit dieser Funktion kann ich den Mean für jeden Tag ausrechnen!

Das ist die Grafik aus den täglichen Means è es gibt weniger Variation in den täglichen Means! Durch diesen Prozess kann ich eine Normal Distribution machen! Das ist ein Vorteil wenn ich das sogenannte „averiging“ vornhme. Wir haben nichts anderes gemacht, ausser die Daten zu gruppieren Wichtig! Wir haben die Daten nicht verändert. Wenn ich den Mean aus dem ganzen (HALT) berechne, erhalte ich den gleichen Wert wie wenn ich den Mean aus einem Tag berechne

Allerdings ändert sich die Standard Deviation. Diese ist massiv kleiner bei der Berechnung für einen Tag als beim gesamten

Vorteile von Averaging zusammengefasst: 1. Die Means bleiben gleich 2. Die Standard Deviation ist kleiner 7

3. Die Verteilung wird zu einer Normal Distribution Normalität Wenn die Population bereits Normal Distributed ist, dann ist auch der Mean Normal. Wenn die Population nicht normal ist brauchen wir mehr Samples oder wir können sie in Gruppen einteilen damit auch ein normaler Mean entsteht. Wenn wir Vorhersagen machen müssen dann brauchen wir grosse Samples.

Sample Size Condition -

-

Kurtosis = Messung der Outliers im Vergleich zur Normal Distribution o Wenn die gegeben Distribution genau die gleichen Outliers hat wie eine Normal Distribution dann ist die Kurtosis = 0 o Wenn die Kurtosis positiv ist, heisst das, dass die aktuelle Distribution mehr Outliers hat als eine Normal Distribution Wir benötigen die Kurtosis um die Sample Grösse zu berechnen

-

Der Mean ist nahezu Normal Distributed wenn,

-

Für eine Symmetric Distribution ein Sample von

Standard Error of the mean Die drei wichtigsten Formeln:

Im TR è File Vorlesung Kapitel 14, Registerkarte 2.1

Erläuterungen: -

Die Tabelle ist ausgefüllt mit verschiedenen Werten Folgende Schritte sind vorzunehmen: 8

Schritt 1: Bestimmung des Means è für die gesamte Tabelle Schritt 2: Bestimmung der Standard Deviation è für die gesamte Tabelle -

Hier wichtig! Die Bezeichnung ist nicht „stedevsam“ sondern „stedevpop“ è ich will es von der ganzen Population

Schritt 3: Ich muss ein Random Sample generieren è Definition einer neuen Funktion; Im Beispiel mache ich ein Random Sample von 20 Schritt 4: Ich nehme den Mean von der neu definierten Funktion è Dieser Mean ist meisten nicht weit entfernt vom Mean der ganzen Population -

Ich kann das unendlich Mal machen, damit ich dann einen definitiven Mean erhalte Allerdings gibt es einen Befehl, der das für mich abnimmt (siehe Schritt 6)

Schritt 5: Ich mache die Standard Deviation für das Sample -

Hier brauche ich wieder den ursprünglichen Befehl „stdevsamp)

Schritt 6: -

Mit dieser Funktion werden insgesamt 500 Samples gemacht. Der TR gibt mir von jedem Sample aber bereits den Mean an, weil das so in der Funktion definiert worden ist.

Schritt 7: Ich errechne den Mean aus dem Ergebis in Schritt 6 -

Dieser Mean muss sehr nahe beim im ersten Schritt errechneten Mean sein!

Schritt 8: Wenn ich nun die Standard Deviation von der ganzen Population habe (siehe Schritt 2) kann ich mit der Formel die den Standard Error of the mean berechnen.

Kapitel 15 Confidence Intervals Beispiel: Eine Gesellschaft möchte eine neue Kreditkarte auf den Markt bringen. Was muss das Unternehmen beachten? 1. Wie viele Leute werden die neue Karte akzeptieren? 2. Diejenigen die sie akzeptieren, wie viel Geld werden sie brauchen mit der Kreditkarte? è Um diese Fragen beantworten zu können müssen wir Samples machen Die Bank möchte 100’00 Kreditkarte an alte Studenten herausgeben. Die Bank verschickt an 1‘000 einen Kreditkarten Antrag mit der Frage wie viel sie verdienen. Für die Bank entstehen folgende Kosten:

9

Was interessiert uns? -

p = Proportion von Leuten welche das Angebot annehmen mean = von den monatlichen Einkommen / Ausgaben mit der Kreditkarte von denen die das Angebot akzeptier haben mean2 = der Durchschnitt des monatlichen Gewinnes

Im TR è File Vorlesung Kapitel 15, Registerkarte 1.1 Schritt 1: Ich muss wissen, wie viel das Angebot annehmen. -

Dazu mache ich eine Iffn Formel:

-

140 akzeptieren das Angebot Diese 140 muss ich noch mit 1000 dividieren è so erhalte ich p! (=0.14

Schritt 2: Ich errechne den Mean vom Einkommen (balance) Die in Schritt 1 und 2 erhaltenen Werte sind vom Sample. Was erwarten wir wie es für die ganze Population aussieht? -

-

Es kann nicht davon ausgegangen werden, dass der Mean und die Proportion genau gleich ist im Sample und in der Population è es kommt immer auf das Sample an! Wenn wir ein neues Sample nehmen, erhalten wir einen neuen Wert Es ist besser nicht nur einen Wert als richtige Antwort zu geben sondern, den Wert in einem Interval (Range) anzugeben.

Confidence Interval Dieses Confidence Interval ist genau dieser Range. Er basiert auf einem Sample von der Population. Wann machen wir ein confidence Interval? -

Wenn der Mean oder die Standard Deviation des Population bekannt ist Wenn der Mean oder die Standard Deviation des Population nicht bekannt ist Für eine Proportion einer Population

Herstellung eines Intervalls: Normally Based Intervals è Ist Vergleichbar mit der Wahrscheinlichkeit

-

Beispiel: Wahrscheinlichkeit von 95%

10

è Das ist die Formel die ich brauche um das ganze zu berechnen! Berechnung: Wichtig!

Diese Berechnung hilft Vorherzusagen, dass mit 95%iger Wahrscheinlichkeit das Sample die Population wiederspiegelt. Im TR File Vorlesung Kapitel 15, Registerkarte 1.1 Schritt 1: Annahme: die Standard Deviation ist 3‘000 Schritt 2 Berechnung der relevanten Daten: -

Mean = 1990.50 Standard Deviation = 2833 n = 140 Kurtosis = 2.57

Schritt 3: schauen ob die Bedingungen erfüllt sind? (siehe auch Seite 8 der Zusammenfassung)

Schritt 4: Für ein 95% confidence Level müssen wir das „z“ finden -

Diesen Wert finde ich heraus, indem ich eine invNorm Funktion erfasse mit 0.025

Schritt 5: -

Berechnung: ich nehme den Mean von balace, addiere den absoluten Wert von „z“, multizipliere es mit der Standard Deviation dividiert durch die Wurzel der Sample Grösse!

-

11

Schritt 6:

-

Berechnung: Unterschied: Anstatt das ich den absoluten Wert von „z“ addiere muss ich ihn Minus rechnen

Folglich können wir folgende Aussage machen: -

-

Der wahre Durchschnitt (Mean) von der Population liegt zwische 1494 und 2487, das mit einer Wahrscheinlichkeit von 95% Ich kann den confidece Level (Wahrscheinlichkeit) beliebig anpassen. Allerdings muss ich dann auch die Berechnungen anpassen è Das Alpha steht für den fehlenden Prozentsatz (wenn das confidence Level bei 95% liegt fehlen 5%)

Konkretes Beispiel: Grocery Shopping Diese Tabelle enthält Daten vom einem SRS. Die Standard Deviation von der Population ist = 6 Gefragt ist: Finde das Intervall für den Mean bei einem confidence Level von 90%

Erläuterungen: 1. Hier mache ich am besten eine data and statistics Dokument auf dem TR 2. N erhalte ich in dem ich den Befehl „Count“ eintippe - Ich brauche eigentlich nur vier Angaben o Mean o Standard Deviation o Proportion = Anzahl o Und den „z“ Wert

12

Was passiert, wenn wir die Standard Abweichung nicht wissen? The Student’s t-Distribution Die Formel ändert sich, wenn für die Standardabweichung nicht kennen.

Wenn wir ein zufälliges Sample nehmen mit einer bestimmten Grösse (n), von einer normalen Population mit einem Mean, dann müssen wir dieser t-Distribution noch den sogenannten degrees of freedom beifügen:

è das n -1 in der Formel ist dieser degree of Freedom Diese Formel ist nur relevant, wenn es sich um ein kleines Sample handelt (kleiner als 30). Wenn es grösser ist, kann die normal Distribution genommen werden.

Kehren wir zurück zum Beispiel mit den Kreditkarten: Nun wissen wir die Standardabweichung nicht! Im TR Schritt 1: Berechnung der Standard Deviation für das Sample è kann ohne etwas zu machen eingegeben werden. Diesen Wert nehmen wir an, dass es auch für die Population der gleiche ist. Schritt 2: Berechnung von degree of Freedom (140 -1) = 139 Schritt 3: Wir können nicht mehr „invnorm“ verwenden!!!!!! Jetzt brauchen wir „invt“

13

Wichtig zu beachten: Bei der...


Similar Free PDFs