Zusammenfassung Statistik für Politikwissenschaftler für Klausur PDF

Title Zusammenfassung Statistik für Politikwissenschaftler für Klausur
Author Fabian von Koeding
Course Statistik I
Institution Universität Greifswald
Pages 16
File Size 140.4 KB
File Type PDF
Total Downloads 10
Total Views 130

Summary

Zusammenfassung der gesamten Vorlesung Statistik für Politikwissenschaftler im 2.Fachsemester Bachelor zur Klausurvorbereitung....


Description

Zusammenfassung Statistik für Politikwissenschaftler Ziel der Vorlesung: Angwandte Statistik Statistik: „Lehre von Methoden zum Umgang mit quantitativen Informationen“ Statistik als Hilfswissenschaft soll Verbindungen zwischen politikwissenschaftlicher Theorie und Realität herstellen. Dient der systematischen Verarbeitung, Verdichtung und Analyse großer Informationsmengen und genügt wissenschaftlichen Standards der intersubjektiven Nachvollziehbarkeit und Replizierbarkeit Durch die angewandte Statistik können Informationen verdichtet werden, aber auch ein Informationsverlust ist möglich. Statistik dient der Komplexitätsreduktion nach wissenschaftlichen Kriterien, ist eine theorieorientierte Datenerhebung und –analyse. Zudem erlaubt es, Muster aufzudecken, sodass Gesetzmäßigkeiten und Strukturen in den Daten sichtbar werden. Zudem ermöglicht diese Zusammenhänge zu erkennen und Aussagen über Ursache und Wirkung zu treffen. Es können Aussagen über politische Phänomene getroffen werden: -Beschreibung bzw. Deskription - Evalution/Induktion/Prognose - Exploration Die Angewandte Statistik erlaubt uns die Überprüfung bestehender Hypothesen und Theorien oder lässt uns neue Zusammenhänge entdecken. Von der Theorie zu den Daten-Skalenniveaus (2.Sitzung) Konzeptspezifikation, Operationalisierung und Messung Reihenfolge: Ausgangspunkt: Theoretische Überlegungen- Begriffe und Konzeptspezifikation Verknüpfung von theoretischen Begriffen Korrespondenzregeln (Operationalisierung)

mit

beobachtbaren

Sachverhalten

durch

Anwendung der Korrespondenzregeln: Datengewinnung (Messung im weiteren Sinne) Übersetzung von empirischen Eigenschaften in Zahlen: Kodierung (Messung im engeren Sinne) Bsp. 1. Theoretische Überlegungen: Zufriedenheit führt zu Stabilität 2. Korrespondenzhypothese: Zufriedenheit mit dem politischen System führt zu positiven Antworten auf die Frage nach Demokratie-zufriedenheit 3. Anwendung der Korrespondenzregeln: Aus positiven Antworten zur Frage nach der Demokratiezufriedenheit kann auf Systemzufriedenheit geschlossen werden 4. Übersetzung von empirischen Eigenschaften in Zahlen: Kodierung Messvorgang umfasst drei Komponenten: 1. Empirisches Relativ: Beziehung zw. den Objekten 2. Numerisches Relativ: Beziehung zw. den Zahlen 3. Abbildungsvorschrift: Die Abbildungsvorschrift ist von der Art des Merkmals im empirischen Relativ abhängig und bestimmt das Messniveau bzw. Skalenniveau

Skalenniveaus in der Statistik: Die Unterscheidung zwischen Skalenniveaus in der Statistik ist absolut wichtig, da abhängig vom Skalenniveau verschiedene statistische Verfahren angewendet werden dürfen, andere wiederum nicht! Daumenregel: Je höher das Skalenniveau, desto mehr statistische Verfahren sind zulässig. Skalenniveaus: Nominalskala: nicht hierarchische Unterschiede (Gleichheit/Ungleichheit eines Merkmals)Zulässige Transformationen: Alle ein-eindeutigen Transformationen, also Quadrieren, Logarithmieren, Multiplikation, Addition/Subtraktion einer Konstanten- sowie Umbennenung Ordinalskala: hierarchische/geordnete Unterschiede- Transformationen: Alle positiven, monotonen Transformationen, die die Rangordnung nicht verändern (Quadrieren, Logarithmieren, Wurzel ziehen) Intervallskala: Ordnung mittels bedeutungsvoller (gleicher) Abstände/Intervalle, Ausmaß des Unterschiedes kann angegeben werden. Zulässige Transformationen: Alle positiven linearen Transformationen der Art Y=a+b*X mit b>0 (Z.B. Umrechnung Fahrenheit auf Celcius) Ratioskala (Verhältnisskala): Intervallskala plus natürlichen Nullpunkt- Zulässige Transformationen- Streckung und Stauchung mit einem positiven Faktor, also Y=b*X mit b>0. Absolutskala: Bezifferung der tatsächlichen Anzahl von Einheiten (wirklichkeitsgetreue Angabe), keine zulässigen Transformationen Sitzung 3: Erste Schritte der Datenanalyse: Datenmatrix, Häufigkeiten, Grafiken Inhalt einer Datenmatrix: Empirische Objekte: Untersuchungseinheiten oder Merkmalsträger: Fälle Bsp. Menschen, Institutionen/Organisationen, Gesellschaften oder Ereignisse Eigenschaften oder Merkmale der Fälle: Variablen Bsp. Demokratiezufriedenheit Eigenschaften der Variablen: Ausprägungen oder Werte Mögliche Ausprägungen: Wertebereich; tatsächlich beobachtete Ausprägungen: Realisierung; Kodierung: gültige und fehlende Werte n*m Tabelle: - Spalten der Datenmatrix Untersuchungseinheiten

(m):

Informationen

über

eine

Variable

bei

allen

- Zeilen der Datenmatrix (n): Informationen über eine Untersuchungseinheit für verschiedene Variablen

Häufigkeiten: Zusammenfassung von Informationen durch Angabe der Häufigkeiten von Merkmalsausprägungen (oder bei gruppierten Daten von Klassenbesetzungshäufigkeiten): - Absolute Häufigkeiten - Relative Häufigkeiten (Prozente) - Kumulierte Häufigkeiten Absolute Häufigkeiten: nj entspricht der Summe der Beobachtungen, für die die Variable X den Wert xj annimmt. Relative Häufigkeiten: werden in der Regel der Interpretation zu Grunde gelegt. Berechnung: Quotient aus absoluter Häufigkeit dividiert durch die Gesamtzahl der Fälle: pj=nj/n Kumulierte Häufigkeiten: Relevanz- aus relativen Häufigkeiten lassen sich kumulierte Häufigkeiten berechnen, sie beschreiben das gemeinsame Auftreten mehrerer Ausprägungen. Berechnung: Für jede weitere Ausprägung werden die relativen Häufigkeiten zu den vorherigen dazu gerechnet Balken- und Säulendiagramme: - können sowohl für nominalskalierte als auch ordinalskalierte Daten verwendet werden Häufigkeiten: werden durch Rechtecke (vertikal: Säulen, horizontal: Balken) dargestellt. - Es können sowohl absolute als auch relative Häufigkeiten abgebildet werden. Bei ordinalen Daten sind die Ausprägungen der Rangfolge nach zu ordnen. Histogramm Verwendung: - stellen die Häufigkeiten von (gruppierten) metrischen Daten dar (Klassenbesetzungshäufigkeiten), - werden manchmal aber auch für ordinalskalierte Daten verwendet. Häufigkeiten: - … werden ebenfalls durch Säulen dargestellt. - Breite der Säule orientiert sich an der Breite der Klassen. Säulen schließen direkt aneinander an. - Es können wiederum sowohl absolute als auch relative Häufigkeiten abgebildet werden Konvention zu Graphiken und Skalenniveaus Nominal: - Balken o. Säulendiagramm - Kreis- oder Tortendiagramm Metrisch: - Stabdiagramme - Histogramme/Verteilungsformen uvm.

Ordinal: - keine eindeutige Konvention - In der Praxis: Stabdiagramme und Histogramme (Rangfolgen) oder Balken- und Säulendiagramme Sitzung 4: Erste Schritte der univariaten Deskription: Lagemaße Univariate Deskription: Beschreibung der Verteilung von Daten. Univariat: für eine Variable Ziel: Verdichtung der Informationen in einem Datensatz auf wenige Kennwerte: -Maßzahlen oder Parameter Üblicherweise werden betrachtet: - Häufigkeiten - Streuungsmaße - Maße der Gestalt Lagemaße: - ugs. Auch Mittelwert - kennzeichnen zentrale Lage einer Verteilugn - gelten als typische oder repräsentative Werte der Verteilung - je nach Skalenniveau dürfen bestimmte Maße berechnet werden und andere nicht Modus/Modalwert: - Der häufigste Wert einer Verteilung - kann für alle Skalenniveaus ermittelt werden. - Im Falle von Variablen mit vielen Ausprägungen (Klassenbildung) häufig genutzt für die Angabe der häufigsten Klasse. Graphische Darstellung: - ein Hochpunkt: uni-modal; - zwei Hochpunkte: bi-modal Der Median: Allgemein: mittlerer Wert - Der Wert, der in der Mitte liegt“ - Wert, der die Datenmenge so unterteilt, dass sich darüber oder darunter höchstens 50% der Datenwerte befinden - Voraussetzung: Variablenausprägungen sind nach ihrer Größe zu ordnen - Anwendbar daher: - bei geordneten Datenmengen und ab ordinalem Skalenniveau/Robust gegen Ausreißer

Das arithmetische Mittel: Ugs. Auch Mittelwert oder Durchschnitt - Definition: Summe aller Datenwerte dividiert durch die Anzahl der Beobachtungen Anwendbar bei metrischen Skalen Eigenschaften: - Berechnung basiert auf allen Werten und Beobachtungen - aber: das arithmetische Mittel ist anfällig gegen Extremwerte Das getrimmte Mittel: Um Verzerrungen durch Ausreißer vorzubeugen, kann das arithmetische Mittel „getrimmt“ werden: - Der Forscher legt fest, welcher Anteil an Werten nicht berücksichtigt wird: - z.B. 5% der oberen und unteren Werte; - oder der oberste und unterste Wert von fünf Werten (20% der oberen und unteren) wie bei Sportbewertungen, usw. … - Bietet such auch an, wenn bestimmte Informationen fehlen, z.B. die höchste/niedrigste Einkommensklasse Sitzung 5: Streuungsmaße/Maße der Gestalt Streuungsmaße geben Auskunft über die Heterogenität, also das Ausmaß der Unterschiedlichkeit von Werten in einer Verteilung und setzen (streng genommen) Intervallskalierung voraus Variationsweite: auch als Spannweite oder range bezeichnet - misst den Abstand zwischen dem minimalen und maximalen Wert einer Verteilung - Die Daten müssen eine Rangordnung aufweisen Quartilsabstand: Abstand zwischen drittem und erstem Quartikl - Jedes Quartil enthält 25% der Messwerte - Das 1.Quartil: 25% der Werte sind kleiner oder gleich dem Quartilwert Q - Das 3. Quartil: 75% der Werte sind kleiner oder gleich dem Quartilwert Q - Mittlere 50% der Messwerte befinden sich zwischen erstem und drittem Quartil (2.Quartil= Median) Darstellung der Verteilung einer metrischen Variable (Box-Plots): Abbildung: 1. 1. Quartil: Q25= Anfang der Schachtel (Box) 2. 3. Quartil: Q75= Ende der Schachtel /Median (2.Quartil: Q50)= Strich in der Mitte Zwei Linien („whiskers“) außerhalb der Box gehen bis zu Xmin und Xmax/Werte außerh. Linie Ausreißer und Extremwerte

Varianz: Die Summe der quadrierten Abweichungen der Werte der Verteilung zum arithmetischen Mittel geteilt durch die Anzahl der Beobachtungen - Fallzahlunabhängige Größe - Je näher die Werte am arithmetischen Mittel, desto kleiner die Varianz - Je weiter entfernt vom arithmetischen Mittel, desto größer die Varianz. Standardabweichung: - Berechnung: Quadratwurzel der Varianz/Wurzel der mittleren quadratischen Abweichung - Interpretation: durchschnittliche Abweichungen der Merkmalswerte um das arithmetische Mittel Variationskoeffizient: - Problem: Bei höherem arithmetischen Mittel auch höhere Standardabweichung - Lösung: Korrektur der Standartabweichung mit arithmetischem Mittel - Wenn Standardabweichung größer Mittelwert, dann v>1 - Maßeinheiten kürzen sich raus- Vergleich der Streuung verschiedener Gruppen möglich - Allerdings muss gelten: X>0 Maße der Gestalt: - Lage- und Streuungsmaße sind die wichtigsten Parameter einer Verteilung - Jedoch geben uns der Mittelwert sowie die Standardabweichung noch nicht alle Informationen - Zusätzliche Informationen ziehen wir aus weiteren Verteilungsmaßen, den Maßen der Gestalt: - Schiefe (skewness) - Wölbung/Steilheit (kurtosis) Rechtsschiefe/linkssteile Verteilung: - Häufung der Werte auf der linken Seite der Verteilung - Extremer/steiler Anstieg der Verteilung links, dann stetigere Abnahme auf der rechten Seite Linksschiefe/rechtssteile Verteilung: - Häufung der Werte auf der rechten Seite der Verteilung - Verteilung steigt von links nach rechts, dann steiler Abfall der Häufigkeiten nach rechts Interpretation: Symmetrische Verteilung: Schiefe=0 Linkssteile Verteilung: Schiefe>0 Rechtsteile Verteilung: Schiefe3 bzw. gamma >0 Im Vergleich geringe Wölbung, breitgipflig- Wölbung...


Similar Free PDFs