Zusammenfassung Mathe-Statistik 1 WS1718 PDF

Title Zusammenfassung Mathe-Statistik 1 WS1718
Course Mathematische Statistik I
Institution Universität Trier
Pages 29
File Size 2 MB
File Type PDF
Total Downloads 97
Total Views 130

Summary

Digitale Zusammenfassung aller Vorlesungen, enthält zudem weiteren Stoff aus diversen Lehrbüchern. Dient optimal als Vorbereitung zur Klausur....


Description

Zusammenfassung Mathematische Statistik 1 1 Erkenntnisgewinnung • •

• •

Definition beschreibende Statistik: Gruppe von Methoden zur Beschreibung von Daten in Form von Grafiken, Tabellen oder statistischen Kennwerten Inferenzstatistik: Gruppe von Methoden, die auf Basis von beispielhaften Daten allgemeingültige Aussagen formulieren bzw. Hypothesen über diese Daten testen o Daten werden in Stichproben gewonnen und auf eine Population übertragen Induktive Erkenntnisgewinnung: Vom Einzelnen aufs Allgemeine schließen Deduktive Erkenntnisgewinnung: Vom Allgemeinen aufs Einzelne schließen

1.1 Theorie und Hypothese • •



• •

Theorien sollen Sachverhalte beschreiben, erklären und vorhersagen o Bestehen aus einer Vernetzung bewährter Hypothesen bzw. empirischer Gesetzmäßigkeiten Induktiv-empiristischer Erkenntnisweg

Induktives Vorgehen: Verifikationsprinzip o Theorien und Hypothesen sollen allgemeingültig sein o Problem der induktiven Herangehensweise: unendlich viele Untersuchungen nötig, um die Gültigkeit nachzuweisen o Unzulässiger Induktionsschluss: von einer begrenzten Anzahl spezieller Ereignisse würde auf die Allgemeingültigkeit der Theorie geschlossen Falsifikationsprinzip: Lösung für Induktionsprinzipproblem o Ablehnung von Hypothesen durch Gegenbeweise



Kriterien für eine gute Theorie: logisch konsistent (widerspruchsfrei); gehaltvoll/informativ (potentiell falsifizierbar); einfach (viele Befunde durch wenige Annahmen erklärbar); bewährt (Bestehen von vielen Tests) o Bsp.:



Kriterien für eine gute Hypothese: o Bezug auf reale Sachverhalte, die empirisch untersuchbar sind o Allgemeingültige, über den Einzelfall hinausgehende Behauptung o Formalstruktur eines sinnvollen Konditionalsatzes (wenn – dann, je – desto) o Potentielle Falsifizierbarkeit o Bsp.:

1.2 Methoden der Datenerhebung •



Testen: o Ziel: quantitative Aussage über den relativen Grad einer individuellen Merkmalsausprägung o 3 Gütekriterien:  Validität: Misst der Test das, was er zu messen vorgibt?  Reliabilität: Wie messgenau ist der Test?  Objektivität: Wie unabhängig sind die Testergebnisse vom Testanwender? Experimentieren: unabhängige vs. abhängige Variable o U.V.: ist eine Variable, deren Einfluss auf die abhängigen Variablen untersucht werden soll o In Experimenten wird die unabhängige Variable von der Versuchsleitung systematisch variiert, die abhängige Variable nicht o Bsp.:

1.3 Mögliche Fragen 1. 2. 3. 4. 5. 6.

Was bedeutet induktive und was bedeutet deduktive Erkenntnisgewinnung? Was ist das Problem der induktiven Herangehensweise und wie löst man es? Was sind die Kriterien für eine gute Theorie? Was sind die Kriterien für eine gute Hypothese? Nenne die Gütekriterien fürs Testen. Welche 2 Variablentypen gibt es und was sind sie genau?

2 Messtheoretische Grundlagen 2.1 Wichtige Elemente und Begriffe 2.1.1 Merkmale und Merkmalsausprägung •





Merkmal: Eigenschaft eines Objekts oder einer Person o es hat eine bestimmte Anzahl (mindestens 2) möglicher Merkmalsausprägungen o Bsp.: Geschlecht (männlich, weiblich) Qualitative vs. quantitative Merkmale: o Qualitative: es wird die Zugehörigkeit eines Objekts oder einer Person zu einer Kategorie eines Merkmals geschrieben  Bsp.: Geschlechtszugehörigkeit hat zwei Kategorien (dichotom) o Quantitative: der Ausprägungsgrad eines Objekts oder einer Person wird in diesem Merkmal auf einem Kontinuum von Werten erfasst  Bsp.: Körpergröße, Berufserfahrung, IQ Manifeste vs. latente Merkmale:

o Manifeste: können direkt beobachtet werden  Bsp.: Körpergröße, Wohnort o Latente: nur indirekt messbar  Theoretische Konstrukte, z.B. Studienmotivation  Es muss aus manifesten Merkmalen auf latente Merkmale geschlossen werden

2.1.2 Messen und Operationalisieren •



Operationalisierung: beschreibt eine Menge von Operationen (Messvorschriften) zur Überführung eines Merkmals in Zahlen o Diese Operationen müssen exakt beschrieben sein o Ergebnis ist ein in Zahlen überführtes Merkmal  eine Variable Messung: Überführen beobachteter Merkmalsausprägungen in Zahlen, so dass die Beziehungen zwischen den Merkmalsausprägungen durch die Beziehungen zwischen den Zahlen abgebildet werden o Dabei werden Zahlen Personen/Objekten/Ereignissen eindeutig zugeordnet o Bsp.: Körpergröße  homorph (eindeutig) Matrikelnummer  isomorph (ein-eindeutig)

2.1.3 Unterscheidung von Variablen • Stetige (kontinuierliche) Variablen vs. diskrete (diskontinuierliche) Variablen o Stetige: quantitative Merkmale können in stetige Variablen überführt werden  Können auf einem beliebig genauen Kontinuum mit beliebig exakten Ausprägungen beschrieben werden; Bsp.: Körpergröße, Gewicht o Diskrete: Qualitative Merkmale können in diskrete Variablen überführt werden; Bsp.: Parteizugehörigkeit, Beruf, Studienort, Pflanzenart  Auch quantitative Merkmale können durch Kategorisierung in diskrete Variablen überführt werden  Haben endlich viele Ausprägungen und keine Zwischenstufen zwischen zwei Kategorien

2.2 Skalenniveau • Definition Skalenniveau: gibt an, wie viel und welche Informationen man mit Hilfe von Operationen aus den Daten entnehmen kann o je höher das Skalenniveau, desto größer ist der Informationsgehalt der betreffenden Daten und desto mehr Rechenoperationen und statistische Maße lassen sich auf die Daten anwenden

2.2.1 Typen und Eigenschaften •

Nominalskala: o Aussagen über Verschiedenartigkeit/Gleichheit von Merkmalsausprägungen möglich o Nominalskalierte Merkmale können nicht nach Rang geordnet werden o Bsp.: Augenfarbe; Wohnort; ein Tisch hat eine andere Länge als ein zweiter



• •

Tisch o Zuordnungsregel:  Exklusivität: Unterschiedliche Merkmalsausprägungen werden unterschiedliche Zahlen zugeordnet (eindeutig) • Unterschiedliche Merkmalsausprägungen  unterschiedliche Zahlen  Exhaustivität: es existiert für jede beobachtete Merkmalausprägung nur eine Zahl (erschöpfend) • Für jede Merkmalsausprägung eine Zahl  Aussage über Verschiedenheit/Gleichheit • Ordinalskala: o Größer/kleiner-Aussagen über Merkmalsausprägungen o Die Ausprägungen ordinalskalierter Merkmale können geordnet werden o Test auf Gleichheit und Interpretation der Rangordnung möglich o Abstände zwischen den einzelnen Stufen sind nicht definiert und müssen nicht gleich groß sein o Bsp.: Kleidergrößen (XS, S, M, L, XL, XXL); ein Tisch ist länger als ein zweiter Tisch o Zuordnungsregeln:  Wie bei Nominalskala  Zahlen stehen für Größenunterschiede einer Merkmalsausprägung Intervallskala: o Aussagen über Abstände/Differenz zwischen den Merkmalsausprägungen o Werte können jedoch nicht ins Verhältnis gesetzt werden, da es keinen absoluten Nullpunkt gibt; willkürlich gesetzter Nullpunkt (somit sind auch negative Werte möglich) o sp.: Jahreszahlen; Ankunftszeiten der Mitarbeiter; ein Tisch ist 20cm länger als ein anderer Tisch o Zuordnungsregeln:  Wie bei Ordinalskala  Äquidistanz: gleich große Abstände zwischen den zugeordneten Zahlen stehen für gleich große Abstände zwischen den Merkmalsausprägungen des Konstrukts Gleich große Abstände zwischen Zahlen = gleich große Abstände zwischen Merkmalsausprägungen Verhältnisskala: o Aussagen über das Verhältnis von Merkmalsausprägungen (Vergleichbarkeit) o Es lassen sich Vergleiche auf Identität, Größe, Additionen, Subtraktionen, Multiplikationen und Divisionen sinnvoll durchführen o Bsp.: Körpergewicht; Entfernungen; ein Tisch ist doppelt so lang wie ein zweiter Tisch o Zuordnungsregel:  Wie bei Intervallskala  Nullpunkt als Referenz: das Verhältnis von Zahlen steht für das reale Verhältnis von Merkmalsausprägungen; den Anfangspunkt einer Skala kennzeichnet einen natürlichen Nullpunkt

o

2.2.2 Transformation • Definition: Eine Umwandlung von Variablenwerten durch eine mathematische Funktion, welche die ursprünglichen Werte in jeweils neue Werte überführt Wozu: um Werte/Merkmalsausprägungen vergleichbar und interpretierbar zu machen

2.3 Mögliche Fragen 1. Was ist ein Merkmal? Nenne ein Beispiel mit den entsprechenden Merkmalsausprägungen. 2. Was sind qualitative und was sind quantitative Merkmale? 3. Was sind manifeste und was sind latente Merkmale? 4. Wie operationalisiert man Merkmale? 5. Nenne alle bekannten Variablentypen. 6. Wie heißen die vier Skalenniveaus? 7. Wie sind die Zuordnungsregeln für jede einzelne Skala?

3 Maße der zentralen Tendenz 3.1 Häufigkeiten •

Häufigkeiten bei diskreten Variablen: o Ausgangspunkt für die Beschreibung von Stichprobendaten ist das Vorliegen einer Liste aller erhobenen Werte (sog. Urliste)  Bsp.: männlich, weiblich f (absolut) 23 5 Absolute Häufigkeit f (relativ) Relative Häufigkeit

23/28=.82



f (kumuliert) .82 Kumulierte rel. Häufigkeit Zählindizierung und statistische Kennwerte:



Regeln zur Kategorienbildung:

5/28=.18

1.00

o Kategorien sollen disjunkt (einander ausschließend) sein o Kategorien sollen benachbart konzipiert sein  Keine Lücke zwischen Kategorien, in der ein Wert liegen könnte o Bei Ausreißern und Extremwerten: offene Kategorien bilden o Geschlossene Kategorien sollen gleich breit sein o Anzahl, Breite und Grenzen der Kategorien sollen sinnvoll gewählt werden

3.2 Maße der zentralen Tendenz 3.2.1 Modalwert (Modus) • Die Merkmalsausprägung, die am häufigsten auftritt / der Wert mit der größten Wahrscheinlichkeit o Stabil gegen Ausreißer o Kann bei Daten im Nominalskalenniveau angewandt werden

3.2.2 Median (Zentralwert, Mittelpunkt) • Bezeichnet den Wert, der die geordnete Reihe der Messwerte in die oberen und unteren 50% aufteilt o Anzahl der Messwerte ist also über und unter dem Wert gleich o Ebenfalls stabil gegenüber Extremwerten o Es muss mindestens Ordinalskalenniveau vorliegen • Median für ungerades N:

= Anzahl aller Messwerte + 1, geteilt durch 2 • Median für gerades N:

= {(Anzahl aller Messwerte, geteilt durch 2) + [(Anzahl aller Messwerte, geteilt durch 2) + 1]} geteilt durch 2

3.2.3 Arithmetisches Mittel (Mittelwert) • • •

Summe aller Messwerte, geteilt durch deren Anzahl N „Durchschnitt“ aller Messwerte

• • •

Üblichster Kennwert zur Bestimmung der zentralen Tendenz Setzt mindestens Intervallskalenniveau voraus Empfindlich gegenüber Ausreißern

3.3 Mögliche Fragen 1. Was sollte bei der Erstellung von Kategorien beachtet werden? 2. Was ist der Modalwert (Mo) und welches Skalenniveau wird mindestens benötigt? 3. Was ist der Median (Md) und welches Skalenniveau wird mindestens benötigt?

o 4. Was ist das arithmetische Mittel (M) und welches Skalenniveau wird mindestens benötigt?

4 Maße der Dispersion • Dispersionsmaße: geben repräsentativ an, wie die einzelnen Werte um das Maß der zentralen Tendenz streuen Ist vom Skalenniveau abhängig

4.1 Auf die Variationsbreite bezogene Maße 4.1.1 Range (Spannweite) •

• •

Bei kontinuierlichen Daten: o Größe des Intervalls, in welchem die unterschiedlichen Werte einer Variable liegen o Berechnung: maximaler Wert – minimaler Wert Bei diskreten (nominalskalierten) Daten: o Range = Anzahl der vorhandenen Kategorien Nachteile: o berücksichtigt bei kontinuierlichen Daten nur die minimalen und maximalen Messwerte  Macht somit keine Aussagen über die Verteilung der restlichen Werte o Ist gegenüber stark abweichenden Werten sehr empfindlich

4.1.2 Interquartilsabstand (IQA) Um die Nachteile des Range zu reduzieren: Benennung einer Variabilitätsbreite, die sich auf einen Bereich bezieht, der nicht so weit außen liegt o Bereich um die Mitte der Verteilung herum (zwischen 25. Und 75. Perzentil) • Aufteilung der Verteilung in vier gleich große Abschnitte o Die Grenzen zwischen diesen Abschnitten werden Quartile (Q1, Q2, Q3) genannt • Vorgehen: 1. Der Median wird ausgerechnet. 2. Der Median der beiden Hälften wird ausgerechnet (Median der Hälften = Q1 und Q3) • Dispersionsmaß IQA = Q3 – Q1 o Dient also als Maß der Streuung • Ist robuster gegenüber Ausreißern



4.2 Auf den Mittelwert bezogene Maße 4.2.1 Varianz ( • •

)

Summe der quadrierten Abweichungen aller individuellen Messwerte vom arithmetischen Mittel, dividiert durch die Anzahl aller Messwerte Nutzung der Abweichungen erhobener individueller Werte vom Mittelwert; durch Quadratur dieser Differenzen: positive Werte und stärkere Berücksichtigung großer „Messfehler“



Berechnung:

o Bsp.:

4.2.2 Standardabweichung (Streuungsmaß, • •

)

Entspricht der Wurzel aus der Varianz Bessere Vergleichbarkeit zwischen verschiedenen Variabilitäten





Werden praktisch immer berichtet, wenn mindestens intervallskalierte Daten vorliegen

4.2.3 Variationskoeffizient • • •

Zum Vergleich der Variabilität verhältnisskalierter Variablen Gibt an, wie viel Prozent des arithmetischen Mittels die Standardabweichung beträgt



Ist dimensionslos, da es Einheiten (z.B. cm und mm) verschwinden lässt

4.2.4 Bestimmung der Verteilungsform • •

Formen einer Verteilung: Schiefe und Exzess (Breite) o Werden durch zentrale Momente bestimmt (insgesamt 4) Zentrales Moment: die Differenz eines individuellen Werts vom Mittelwert o

o Exponent a bestimmt die Ordnung des zentralen Moments o Summer der Abweichungen der individuellen Werte vom Mittelwert ergibt Null  Zentrales Moment erster Ordnung o Summe der quadrierten Abweichungen der individuellen Werte für ein Minimum  Zentrales Moment zweiter Ordnung 4.2.4.1 Schiefe • Die Schiefe einer Verteilung wird über das dritte Zentrale Moment berechnet •

ergibt

o o Schiefe kann so folgendermaßen klassifiziert werden: 

o Schätzung der Schiefe mithilfe der Maße der zentralen Tendenz: 

 rechtsschiefe Verteilung

 

 symmetrische Verteilung  linksschiefe Verteilung

4.2.4.2 Exzess (Breite) • Wird über das vierte Zentrale Moment berechnet •

o Kann folgendermaßen klassifiziert werden: 

4.3 Stichprobe und Population •



Population: Grundgesamtheit von Personen, die ein Merkmal oder eine Merkmalskombination gemein haben o Ist meist nicht vollständig untersuchbar o Populationskennwerte werden üblicherweise mit griechischen Buchstaben dargestellt  Um die Schätzung einer Population zu kennzeichnen, werden die geschätzten Kennwerte mit Dach dargestellt Stichprobe: Teilmenge aus der Population o Schätzen der Population auf Basis der Stichprobe o Stichprobenkennwerte werden mit lateinischen Buchstaben dargestellt o Mittelwerte und Standardabweichungen/Varianzen einer Stichprobe dienen als Schätzer für Populationskennwerte

4.3.1 Berechnung der Varianz •

In der Stichprobe zur Beschreibung der Stichprobe:



In der Population zur Beschreibung der Population:



In der Stichprobe zur Schätzung der Population (am häufigsten genutzt):

o Summierung der quadrierten Abweichungen der einzelnen Messwerte vom Mittelwert, geteilt durch die Stichprobengröße/Freiheitsgrade df (= degrees of freedom) o



Freiheitsgrade: Entsprechen der Anzahl der Werte, die bei seiner Berechnung frei variieren können o Mittelwert: n Freiheitsgrade o Varianz: nur n – 1 Freiheitsgrade, wenn Mittelwert bereits festgelegt ist

4.4 Visualisierung deskriptiver Kennwerte • Box-Plot: grafische Darstellung verschiedener Eigenschaften einer Verteilung auf einen Blick •

4.5 Mögliche Fragen 1. Was sind Dispersionsmaße und wovon ist deren Wahl abhängig? 2. Was gibt der Range an? 3. Was gibt der Range bei nominalskalierten Daten an? 4. Was ist der Interquartilsabstand? 5. Was ist die Varianz? 6. Was ist die Standardabweichung und was ermöglicht sie? 7. Welche Verteilungsformen kennst du? 8. Was ist ein Zentrales Moment? 9. Welche Schiefe der Verteilung gibt es? 10. Welche Breiten der Verteilung gibt es? 11. Was ist eine Population? 12. Was ist eine Stichprobe?

5 Wahrscheinlichkeitsverteilungen 5.1 Einführung in die Wahrscheinlichkeitstheorie •



• •

Zufallsexperiment: ein Experiment, das beliebig oft wiederholbar ist und zu unterschiedlichen Ergebnissen führen kann o Der Durchführende hat keinen Einfluss auf das Ergebnis o Für ein mögliches Ergebnis gibt es eine bestimmte Wahrscheinlichkeit p (=probability) Ergebnismenge (Ergebnisraum, Ereignisraum, Wertebereich): Die Ergebnismenge Ω beschreibt die Menge aller möglichen Ergebnisse eines Experiments o Bsp.: Befragung eines Ehepaars  Wie viele Ja-Antworten? Ω = {0, 1, 2} Ω = {NN, JN, JJ} Ergebnis: direkt beobachtbarer Ausgang des Zufallsexperiments Ereignis: möglicher Ausgang des Zufallsexperiments; nicht direkt beobachtbar o Elementarereignis: ein Ereignis, das nur ein einziges Ergebnis enthält

5.1.1 „a priori“-Wahrscheinlichkeit nach Laplace • • •

Vor der Durchführung eines Zufallsexperiments = a priori Schon vor einem Zufallsexperiment sind also alle möglichen Ereignisse bekannt o Jedes Elementarereignis hat dieselbe Auftretenswahrscheinlichkeit Bestimmung der Wahrscheinlichkeit p(A) eines Ereignisses A über die relative Häufigkeit seines Auftretens:

o Bsp.: Karo bei einem 32 Karten Spiel

5.1.2 „a posteriori“-Wahrscheinlichkeit nach Bernoulli • •

Nach der Durchführung vieler Experimente  a posteriori Im Nachhinein kann die Wahrscheinlichkeit eines Zufallsexperiments immer ermittelt werden o Schätzung der Wahrscheinlichkeit für ein Ereignis A über die relative Häufigkeit seines Auftretens nach vielen Durchgängen eines Zufallsexperiments o Die Schätzung wird umso genauer, je mehr N gegen unendlich geht:

 Bsp.: 2 von 10 Kinder sind nicht angeschnallt

 zu niedrig, also Absicherung der Stichprobe um 100; 3 weitere nicht angeschnallte Kinder:

 weitere Untersuchungen von 890; 5 weitere nicht angeschnallt:

5.2 Wahrscheinlichkeitsverteilungen •

Diskrete Wahrscheinlichkeitsverteilung: die Ergebnisse eines Zufallsexperiments mit einer diskreten Variablen sind abzählbar o Bsp.: Werfen eines Würfels  Es ist nur möglich ganze Zahlen zu würfeln; Zwischenstufen (z.B. 2,6) sind nicht möglich; Anzahl der Würfelseiten können gezählt werden o



Stetige Wahrscheinlichkeitsverteilung: verschiedene Merkmale können beliebig exakt gemessen werden o In einem Zufallsexperiment können so unendlich viele Elementarereignisse realisiert werden o Es entsteht eine stetige Dichtefunktion der Wahrscheinlichkeitsverteilung o Problem: Berechnung der Wahrscheinlichkeit für ein Elementarereignis  Lösung: Es wird die Wahrscheinlichkeit für Intervalle zwischen zwei Elementarereignissen bestimmt (z.B. die Wahrscheinlichkeit für eine Körpergröße zwischen 1,70 und 1,75) Bei einer großen Stichprobe, sind diskrete in stetige Wahrscheinlichkeitsverteilungen überführbar



5.2.1 Normalverteilung • • •

Stetige, unimodale, symmetrische Verteilung mit glockenförmigen Verlauf, die sich der xAchse asymptotisch annähert Ist von hoher Relevanz für die Auswertung von stetigen Variablen Durch Mittelwert und Streuung vollständig bestimmt: o Mittelwert = Hochpunkt der Verteilung; Streuung = Wendepunkt der Verteilung

o





68,27% aller Werte liegen maximal eine Standardabweichung vom Mittelwert entfern; 95,45% der Werte liegen im Bereich von +/- 2s

o Anders betrachtet: 95% aller Werte liegen im Bereich und gelten so als statistisch normal Normalität: wird das Intervallverstanden, in dem 95% der Stichprobenwerte liegen o Stati...


Similar Free PDFs