Stat1-Skript Start - Zusammenfassung Statistik I PDF

Title	Stat1-Skript Start - Zusammenfassung Statistik I
Author	Lucas Opitz
Course	Statistik I
Institution	Universität Mannheim
Pages	36
File Size	1.2 MB
File Type	PDF
Total Downloads	68
Total Views	139

Preview

CLICK TO PREVIEW PDF

Summary

Teil 1...

Description

Statistik I - Teil 1 Frühjahrssemester 2014 Universität Mannheim Abteilung Volkswirtschaftslehre Lehrstuhl für Statistik Dr. Toni Stocker Das vollständige Skript wird in gebundener Form (2 Teile) in der ersten Übung verteilt. Sollten Sie diesen Termin verpassen, ist es danach über die Fachschaft VWL erhältlich.

Vorwort Das vorliegende Skript ist begleitendes Lehrmaterial für die Veranstaltung „Statistik 1“ (Bachelor-VWL) und auf diese hin zugeschnitten. Die in der Vorlesung behandelten Themen werden hier ausführlich(er) und formal(er) kommentiert. Generell setze ich sowohl den Besuch der Vorlesung als auch die Lektüre dieses Skripts für den Übungsbetrieb und die Klausur voraus. Rechenfehler und Unzulänglichkeiten inhaltlicher und textlicher Art bitte ich schon an dieser Stelle zu entschuldigen. Für zahlreiche Hinweise und Anregungen, die von Seiten von Lesern dieses Skripts in der Vergangenheit eingebracht wurden, war ich immer sehr dankbar und heiße solche auch weiterhin willkommen. Das aktuell vorliegende Skript ist mit der Vorgängerversion 2013 quasi identisch. Der Fachschaft VWL danke ich vielmals für den Druck und die Herausgabe dieses Skripts in handlicher Form! Toni Stocker

Literatur Fahrmeir, Künstler, Pigeot, Tutz (2010): Statistik – Der Weg zur Datenanalyse, 7. Auflage; Springer. Hartung, Elpelt, Klösener (2009): Lehr- und Handbuch der angwandten Statistik, 15. Auflage; Oldenbourg. Schira (2012): Statistische Methoden der Vwl und Bwl, 3. Auflage; Pearson.

Dieses Skript orientiert sich teils an dem Lehrbuch von Fahrmeir (2010). Zu großen Teilen folgt das Skript inhaltlich und didaktisch jedoch eigenen Entwürfen, so dass sich zahlreiche Ausführungen entweder nicht oder nur stark modifiziert in den aufgeführten Lehrbüchern finden.

Verwendung Dieses Skript ist für die Besucher der betreffenden Lehrveranstaltung an der Universität Mannheim bestimmt. Jede weitere Verwendung, Vervielfältigung oder Weitergabe an Dritte ist ohne vorherige Zustimmung nicht erlaubt!

Inhaltsverzeichnis Kapitel

1 Einführung in die Statistik 1.1 Was versteht man unter Statistik? 1.2 Inhaltlicher Überblick 1.3 Einige Grundbegriffe

Seite

3 3 6 8

Teil 1: Deskriptive Statistik

11

2 Univariate Deskription und Exploration von Daten 2.1 Verteilungen und ihre Darstellung 2.1.1 Häufigkeiten bei Urliste 2.1.2 Häufigkeiten bei klassierten Daten 2.1.3 Grafische Darstellungen 2.1.4 Empirische Verteilungsfunktion 2.2 Maßzahlen zur Beschreibung von Verteilungen 2.2.1 Grundzüge von Verteilungen 2.2.2 Lagemaße 2.2.3 Streuungsmaße 2.2.4 Einige rechnerische Besonderheiten 2.2.5 Schiefemaße 2.2.6 Darstellung und Messung von Konzentration

11 12 12 15 18 25 34 34 37 57 67 81 83

3 Multivariate Deskription und Exploration von Daten 3.1 Analyse von Kontingenztabellen 3.1.1 Verteilungen in Kontingenztabellen 3.1.2 Der Kontingenzkoeffizient nach Pearson 3.1.3 Grafische Darstellungsmöglichkeiten 3.2 Analyse metrischer Merkmale 3.2.1 Grafische Darstellungs- und Analysemöglichkeiten 3.2.2 Zusammenhangsmaße für metrische Merkmale 3.2.3 Abhängigkeit, Korrelation und Kausalität 3.3 Das einfache lineare Regressionsmodell

90 91 91 96 104 106 107 110 125 129

4 Preisindizes

142

Teil 2: Wahrscheinlichkeitsrechnung

147

5 Grundlagen 5.1 Wahrscheinlichkeit - Begriff und Definition 5.1.1 Zufallsvorgänge und Interpretation von Wahrscheinlichkeiten 5.1.2 Mengen und Mengenoperationen 5.1.3 Ereignisse und Wahrscheinlichkeiten 5.2 Berechnung von Laplace-Wahrscheinlichkeiten 5.2.1 Laplace-Experimente 5.2.2 Urnenmodell und Kombinatorik 5.3 Wahrscheinlichkeit von Ereignissen 5.3.1 Bedingte Wahrscheinlichkeiten 5.3.2 Unabhängigkeit von Ereignissen 5.3.3 Satz von Bayes

148 148 148 152 160 171 171 173 182 182 188 195

6 Eindimensionale Zufallsvariablen 6.1 Zufallsvariable und Wahrscheinlichkeitsverteilung 6.2 Diskrete Zufallsvariablen 6.2.1 Wahrscheinlichkeitsfunktion und Verteilungsfunktion 6.2.2 Unabhängigkeit von diskreten Zufallsvariablen 6.2.3 Erwartungswerte und Varianzen 6.2.4 Quantile 6.2.5 Einige spezielle diskrete Verteilungsmodelle 6.3 Stetige Zufallsvariablen 6.3.1 Dichtefunktion und Verteilungsfunktion 6.3.2 Unabhängigkeit von stetigen Zufallsvariablen 6.3.3 Erwartungswerte und Varianzen 6.3.4 Quantile 6.3.5 Die Normalverteilung 6.4 Bedeutende Gesetze der Wahrscheinlichkeitstheorie 6.4.1 Die Ungleichung nach Tschebyscheff 6.4.2 Das Gesetz der großen Zahlen 6.4.3 Satz von Bernoulli und Hauptsatz der Statistik 6.4.4 Der zentrale Grenzwertsatz

199 199 204 204 208 211 218 219 232 232 242 242 248 251 260 260 264 267 269

7 Mehrdimensionale Zufallsvariablen 7.1 Zweidimensionale diskrete Zufallsvariablen 7.2 Zweidimensionale stetige Zufallsvariablen 7.3 Unabhängigkeit und Korrelation 7.4 Die zweidimensionale Normalverteilung 7.5 Erweiterungen auf n Dimensionen

278 278 289 297 309 314

1 Einführung in die Statistik - 1.1 Was versteht man unter Statistik? 1 Einführung in die Statistik Inhalt

Seite

1.1 Was versteht man unter Statistik? 1.2 Inhaltlicher Überblick 1.3 Einige Grundbegriffe

3 6 8

1.1 Was versteht man unter Statistik? Der Begriff Statistik kann auf verschiedene Weisen verstanden werden. Zum einen kann man unter einer Statistik schlicht einen oder mehrere „zusammenfassende“ Zahlenwerte verstehen. Ziel ist es dabei, den Informationsgehalt einer größeren Menge von Zahlen (Daten) durch wenige Zahlen auszudrücken, d.h. zu komprimieren. Das arithmetische Mittel, häufig auch einfach als Mittelwert oder Durchschnittswert bezeichnet, wäre ein simples Beispiel für eine solche Statistik. So wurden z.B. die Noten in den einzelnen Fächern Ihres Abiturzeugnisses zu einer Durchschnittsnote zusammengefasst, die wiederum ein wichtiges Zulassungskriterium für ein Studium hier in Mannheim war. Studenten mit der gleichen Durchschnittsnote wären statistisch gesehen gleich, falls keine weitere Information vorliegt bzw. berücksichtigt wird. Statistiken dienen der Komprimierung von Information. Es geht darum, Information übersichtlicher darzustellen, um sie schneller auswerten und verarbeiten zu können. Letztlich erleichtern Statistiken eine Entscheidungsfindung. Sogleich mögen wir die grundsätzliche Problematik des Informationsverlustes bemerken, welche im Zusammenhang jeder Statistik auftritt. Tatsächlich lehnt sich der Begriff „Statistik“ an das lateinische Wort statisticum (den Staat betreffend) an. Lange Zeit hat man unter Statistik sozusagen die Zustandsbeschreibung des Staates verstanden. Zu dieser Zustandsbeschreibung zählte das Sammeln (und Komprimieren) von Daten über Wirtschaft, Militär und Bevölkerung. Man denke heute nur an die Arbeitslosenstatistik der Bundesagentur für Arbeit oder die vom statistischen Bundesamt und der Bundesbank regelmäßig veröffentlichten Statistiken zu Wirtschaft, Bevölkerung und Finanzmarkt. Von wirklichem (medialen) Interesse sind dabei freilich nur wenige Zahlen (Statistiken) wie z.B. die Arbeitslosenquote, das BIP-Wachstum oder die Inflationsrate. Auch hier liegt wieder die Problematik einer unzureichenden Informationsverarbeitung, Interpretation und Bewertung vor. Weiter kann man unter Statistik einen speziellen auf der Wahrscheinlichkeitsrechnung beruhenden methodischen Apparat zur Auswertung zufallsbehafteter Daten verstehen. Daten sind zufallsbehaftet, falls deren Zustandekommen in gewisser Weise einem Zufallsvorgang unterworfen ist. Ein einfaches Beispiel wäre der Wurf einer Münze. Die Häufigkeit des Auftretens von „Kopf“ beim 60-maligen Wurf einer Münze wäre sicherlich als zufällig zu erachten. Angenommen, Sie haben unter 60 Würfen 40 Mal „Kopf“ geworfen. Unter einer 3

1 Einführung in die Statistik - 1.1 Was versteht man unter Statistik?

fairen Münze hätten Sie sicherlich eine Zahl um die 30 erwartet, da dies gerade der Hälfte aller Würfe entspricht. Die Frage, die man sich nun stellen kann ist, ob „40 Mal Kopf“ auf eine unfaire Münze hindeutet oder nicht. Ein solches Problem werden wir (viel) später als statistisches Problem identifizieren. Ein statistisches Problem liegt stets dann vor, falls Zahlenwerte (Statistiken) zufällig zustande kommen und dadurch bedingt keine sichere Aussage über einen bestimmten Sachverhalt mehr möglich ist. In der vorliegenden Situation spricht „40 Mal Kopf“ sicherlich schon erheblich gegen eine faire Münze. Gleichzeitig ist aber auch klar, dass dieses Ergebnis (der Wert dieser Statistik) durchaus auch mit einem fairen Würfel zustande kommen kann, wenn es auch nicht sehr wahrscheinlich ist. Eine ähnliche Situation liegt vor, wenn Daten auf Stichprobenbasis erhoben werden. Möchte man die Zufriedenheit der Mannheimer Studenten mit der Uni-Mensa feststellen, würde man in der Praxis eine Stichprobe ziehen. Aus Gründen der Organisation, des Kosten- und Zeitaufwands scheidet eine Befragung aller Studenten von Vorneherein aus. Man begnügt sich mit einer deutlich kleineren Auswahl von Studenten, welche befragt werden. Auch hier wäre das Ergebnis wieder mehr oder weniger zufällig. Wären beispielsweise von 20 befragten Studenten 15 Studenten zufrieden, stellt sich die Frage, ob sich daraus die Aussage ableiten lässt, dass die Mehrheit der Studenten mit der Mensa zufrieden ist. Es liegt also wieder ein statistisches Problem vor. In gewisser Weise könnte man auch eine monatlich ermittelte Arbeitslosenzahl als zufällig erachten. Die exakte Zahl kann schließlich nicht mit Sicherheit prognostiziert werden. Steigt nun die Zahl der Arbeitslosen von einem Monat auf den nächsten, entsteht im Grunde genommen auch ein statistisches Problem. Es stellt sich nämlich die Frage, ob der Anstieg eher zufällig ist oder nicht, also einer Pressenotiz würdig ist oder nicht. Sicherlich wird es so sein, dass ein Anstieg in ganz Deutschland um 100 000 aussagekräftiger sein dürfte als ein Anstieg um lediglich 1000. Doch ab wann liegt tatsächlich eine systematische Veränderung vor? Im Unterschied zu den vorigen beiden Beispielen wird bei dieser Fragestellung auch die zeitliche Entwicklung einer bestimmten Statistik (hier die Arbeitslosenzahl) in der Vergangenheit mit zu berücksichtigen sein. Statistik als methodischer Apparat stellt nun ganz spezielle Ansätze zur Interpretation solcher zufallsbehafteter Daten bereit. Dabei wird das vorliegende statistische Problem stets in ein geeignetes Wahrscheinlichkeitsmodell eingebettet, in dessen Rahmen dann interpretative Aussagen in wohldefinierter Weise getroffen werden können. In diesem Sinne verstanden entstand Statistik in ihren wichtigsten Grundzügen erst während der 1. Hälfte des 20. Jahrhunderts. Entscheidend für diese Entwicklung war unter anderem auch die theoretische Fundierung und Weiterentwicklung der Wahrscheinlichkeitstheorie, welche ein wichtiges Grundlagenfach und Arbeitsinstrument für die Statistik darstellt. Ob wir unter Statistik nun spezifische Werte, die aus einer größeren Datenmenge gewonnen werden, verstehen oder eine Gesamtheit von Methoden zur Interpretation zufallsbehafteter Daten, so geht es letztlich immer um die Verarbeitung und Auswertung von Daten. Diese unterliegen von der Entstehung bis zur abschließenden Interpretation immer dem gleichen Prozess (siehe Schema).

4

1 Einführung in die Statistik - 1.1 Was versteht man unter Statistik?

Schema: Datenprozess

Am Anfang steht die Erhebung. Daten können auf unterschiedlichem Wege gewonnen werden, z.B. durch Befragung, Zählung oder Experiment (z.B. Münzwurf). Nach der Sammlung der Daten steht deren Aufbereitung an. Die Werte werden geordnet, tabelliert und von möglichen Fehlern bereinigt. Im Weiteren werden einzelne Statistiken wie Mittelwerte und Häufigkeiten berechnet. Zur Veranschaulichung werden auch Grafiken wie Kuchen- und Balkendiagramme erstellt. Am Ende geht es darum, geeignete Schlüsse aus den Ergebnissen zu ziehen. In welcher Weise können die Ergebnisse nun sachgerecht interpretiert und kommuniziert werden? Welche Konsequenzen sind daraus zu ziehen? In diesem letzten Schritt kommt nun der Statistik als Methode eine entscheidende Rolle zu. Dies setzt allerdings voraus, dass hinter der Entstehung der Daten ein Zufallsvorgang steckt, oder zumindest ein Vorgang, der als solcher interpretiert werden kann. Eine „richtige Interpretation“ der Daten muss so gesehen immer den gesamten Prozess berücksichtigen. Die einzelnen Schritte bedingen einander. Die methodischen Ansätze zur Interpretation können nur sachgerecht angewendet werden, falls die Datenentstehung (die Erhebungsmethode) dazu passt und die Daten geeignet aufbereitet werden. So gesehen können wir Statistik allgemein auch als eine Wissenschaft verstehen, die sich mit allen auftretenden Aspekten eines „Datenprozesses“ befasst. Entscheidend und kennzeichnend ist dabei, dass Zufallsvorgänge stets geeignet modelliert und mit spezifischen auf der Wahrscheinlichkeitstheorie beruhenden Methoden ausgewertet und interpretiert werden. Halten wir an dieser Stelle eine für uns zweckmäßige Definition des Begriffs Statistik fest.

Statistik ist die Wissenschaft von der Erhebung, Aufbereitung, Darstellung, Analyse und Interpretation von Daten unter besonderer Berücksichtigung von Zufallsvorgängen.

In nahezu jeder Realwissenschaft (Natur- und Gesellschaftswissenschaften) spielen empirische (auf Daten beruhende) Untersuchungen, Experimente und Analysen eine Rolle. Insofern mag es auch nicht überraschen, dass Statistik als Art Hilfswissenschaft oder (positiver formuliert) Formalwissenschaft heute in sehr vielen wissenschaftlichen Disziplinen eine mehr oder minder bedeutende Stellung einnimmt. Teils haben sich innerhalb einiger Realwissenschaften auch schon eigene Teilgebiete wie z.B. Biometrie, Psychometrie oder Ökonometrie 5

1 Einführung in die Statistik - 1.2 Inhaltlicher Überblick

herausgebildet. Solche Spezialisierungen setzen sich auch heute noch fort und erfassen alle erdenklichen Fächer. Die Ursprünge der Statistik als Methode sind dabei im naturwissenschaftlichen Bereich anzusiedeln, insbesondere in den Agrarwissenschaften und in der Biologie. Eingang in die Wirtschaftswissenschaften fand die Statistik Anfang der 1930er Jahre mit der Gründung der Econometric Society und ihrer Zeitschrift Econometrica. Es entstand, wenn man so will, das Gebiet der Ökonometrie. Ein wichtiges Ziel war es dabei, ökonomische Theorien mit mathematisch-statistischen Methoden zu modellieren und auf ihre Gültigkeit hin zu überprüfen. Die Methoden wurden dabei vorwiegend dem naturwissenschaftlichen Bereich entnommen. Auch heute sind die Wirtschaftswissenschaften über diese mathematisch-statistische Schiene mit den Naturwissenschaften sehr eng verbunden. Statistische (ökonometrische) Methoden sind heute aus den Wirtschaftswissenschaften nicht mehr wegzudenken. Gelegentlich ist auch schon von einer „regelrechten Statistisierung“ und „Mathematisierung“ der Wirtschaftswissenschaften die Rede. Ich persönlich denke, dass Sie zu einem gewissen Grad die statistischen bzw. ökonometrischen Grundlagen tatsächlich auch benötigen, um ein guter Ökonom zu werden. Diese gehören zu Ihrem „Werkzeugkasten“ einfach dazu, und Sie müssen zumindest ein Grundverständnis für deren Umgang besitzen. Falls Sie wissenschaftlich ambitioniert sein sollten, wäre dies gar ein unbedingtes Muss.

1.2 Inhaltlicher Überblick Klassischerweise wird die Statistik in die beiden Kerngebiete Deskriptive (beschreibende) Statistik und Induktive (schließende) Statistik aufgeteilt. Die deskriptive Statistik befasst sich dabei vorrangig mit Methoden zur Aufbereitung, Komprimierung und (grafischen) Darstellung von Daten, während die induktive Statistik jene wahrscheinlichkeitstheoretisch begründeten Methoden zur Interpretation zufallsbehafteter Daten beinhaltet.

Kerngebiete der Statistik

6

1 Einführung in die Statistik - 1.2 Inhaltlicher Überblick

Deskriptive Methoden, die sich deutlich vom elementaren Niveau übersichtlicher Tabellen, einfacher Mittelwertberechnungen und bunter Balkendiagramme abheben, werden gelegentlich zu den Verfahren der Explorativen Datenanalyse (EDA) gezählt. Diese Verfahren sind häufig grafikbasiert und stehen stärker mit den induktiven Verfahren in Verbindung als die übrigen deskriptiven Verfahren. Der Übergang zu dem eher in der Informatik beheimateten Gebiet des sogenannten Data Mining („Datenschürfen“) verläuft fließend. Im Data Mining geht es darum, in (sehr) großen Datenmengen „interessante“ und „verwertbare“ Muster zu erkennen. Die dabei verwendeten Methoden beruhen mehr oder weniger auf statistischmathematischen Modellen. Das Untersuchungsziel muss nicht zwingend konkret sein. So erwiderte ein Vortragender bei einer Data-Mining-Konferenz auf die besorgte Frage eines Hörers, wo denn bei dem Ganzen überhaupt das Modell zu finden sei: „It’s not science, it’s Data Mining!“. Die beiden induktiven Grundprinzipien bilden das sog. Schätzen und das Testen, wobei beim Schätzen in Punkt- und Konfidenzschätzung unterschieden wird. Wir werden auf dieses Herzstück der Statistik allerdings erst im Rahmen von „Statistik 2“ zu sprechen kommen. Da Zufallsvorgänge und Wahrscheinlichkeiten eine wichtige Rolle spielen, ist Wahrscheinlichkeitsrechnung das wichtigste Grundlagenfach in der Statistik, ist aber selbst kein statistisches Fach im engeren Sinn. Wird Wahrscheinlichkeitsrechnung auf höherem mathematischem Niveau betrieben, spricht man eher von Wahrscheinlichkeitstheorie. Gelegentlich findet auch die Bezeichnung Stochastik Verwendung. Dies ist insbesondere dann der Fall, wenn die Modellierung zeitlicher Abläufe (stochastische Prozesse) von Interesse ist. Wird induktive Statistik auf höherem mathematischem Niveau betrieben, spricht man eher von mathematischer Statistik. Im Rahmen von „Statistik 1“ werden wir uns im 1. Teil mit gängigen Verfahren aus der deskriptiven Statistik und einigen explorativen Methoden befassen. Den 2. Teil bilden dann die Grundlagen der Wahrscheinlichkeitsrechnung. In „Statistik 2“ werden wir uns dann der induktiven Statistik zuwenden. Die Veranstaltungen „Statistik 1“ und „Statistik 2“ bilden für Sie die Grundausbildung im quantitativen Bereich. Im Mittelpunkt steht dabei die Vermittlung der Statistik als Methode zur Auswertung von Daten. Ökonomische Anwendungsbeispiele sind zunächst einmal eher nebensächlich. Diese würden ohnehin für die meisten Fälle nur gekünstelt wirken. Die sachgerechte Anwendung statistischer Verfahren zur Analyse ökonomischer Daten erfordert nämlich Werkzeuge, die in der Grundlagenphase allein noch nicht vermittelt werden können. Sie müssen sich also noch ein wenig gedulden. Sie mögen sich zunächst einmal auf das Verständnis der „Grundwerkzeuge“ konzentrieren. Dazu gehört auch der Umgang mit statistischer Software. Datenverarbeitung ohne Computer ist schon lange undenkbar. Im Rahmen der Veranstaltung „Grundlagen der Ökonometrie“ werden Sie dann verstärkt die wichtigsten Instrumente zur Analyse ökonomischer Daten kennenlernen. Das wohl wichtigste Arbeitsinstrument, das Regressionsmodell, wird bereits im 2. Teil von „Statistik 2“ eingeführt.

7

1 Einführung in die Statistik - 1.3 Einige Grundbegriffe

Quantitative Fächer im Bachelor-Studium

Nach den verpflichtenden Veranstaltungen im quantitativen Bereich stehen Ihnen viele Möglichkeiten offen, sich im quantitativen Bereich weiter zu vertiefen bzw. zu spezialisieren, falls Sie denn wollen. Alle „Metrien-Fächer“ (Ökonometrie, Finanzmarktökonometrie, Mikro- oder Makroökonometrie, usw.) verwenden Statistik als methodischen Grundapparat jeweils in einem speziellen Anwendungsfeld. Ökonomische Daten sind zumeist Zeitreihen, d.h. Daten, die in zeitlichen Abständen (etwa monats- oder quartalsweise) erhoben werden. Für die statistische Modellierung und Analyse solcher Zeitreihendaten werden spezielle Werkzeuge benötigt, welche in Veranstaltungen wie „Zeitreihenanalyse“ vermittelt werden. Und so stehen noch einige weitere Fächer mit speziellen Schwerpunkten zur Wahl.

1.3 Einige Grundbegriffe Bevor wir uns...