Wissen. Methoden - quantitative Datenanalyse ZSM PDF

Title Wissen. Methoden - quantitative Datenanalyse ZSM
Author Vanessa Nana
Course Wissenschaftliche Methoden – quantitative Datenanalyse
Institution FOM Hochschule
Pages 74
File Size 5.8 MB
File Type PDF
Total Downloads 67
Total Views 145

Summary

Zusammenfassung...


Description

Wissenschaftliche Methoden – quantitative Datenanalyse

· Wissenschaftliche Grundlagen Erinnerungsvermögen Frage: Wann Können WIR uns besser Wörter erinnern, die Wir uns vorher einprägen müssen? è Nachdem wir ein Nickerchen gemacht haben è Nachdem ich eine Koffeintablette genommen habe. è Egal. Was für uns gilt → kann keiner wissen. Die Wissenschaft kann herausfinden, welche Zusammenhänge allgemein (z.B. im Durchschnitt) gelten. · Systematische Daten besser als einzelne Anekdoten!

Erinnerungsvermögen allgemein Frage: Wann kann ein Mensch sich besser an Wörter erinnern, die Menschen sich vorher einprägen musste? è Nach einem Nickerchen. è Nach einer Koffeintablette: è Egal.

Zur Beantwortung einer Forschungsfrage → IMMER ZUERST DIE LITERATUR RECHERCHIEREN! Lernen den Prozess kennen, der v. der Forschungsfrage zur Antwort führt. (Es geht nicht nur um die Datenerhebung → auch die Datenanalyse relevant!)

Worterinnerung nach Behandlung

Mittelwert Koffeintabletten 12,25 Wörter

Schlaf 15,25 Wörter 1

è Mittelwert v. Schlafgruppe: 3 Wörter mehr erinnern als die Koffeintablettengruppe.

Frage: Welche Aussage stimmt? è Die Analyse beweist, dass Schlafen vorteilhaft gegenüber Koffeintabletten ist. è Das der Schlaf besser ist als Koffein ist Zufall, in Wirklichkeit ist Koffein besser. è Kann nicht endgültig entschieden werden. è Aussagen werden kritisch überprüft, immer vorläufig und nicht endgültig → kann nicht endgültig entschieden werden. è Keine Widerlegung der Aussage vorhanden → Keinesfalls als belegt gelten. è Was man trz machen könnte → z.B. schauen, welche Unterschiede zufällig vorkommen würde, wenn es keinen Unterschied geben würde (Modellannahme).

Vergleich Daten und Modell

Im Model vorhergesagte Differenzen – wenn es keinen Unterschied gibt Frage: Der Anteil der Simulationen, in denen es zufällig einen Unterschied v. mindest. Drei erinnerten Wörtern im Mittelwert gibt, liegt bei 0.0474. Was stimmt nach Ihrer Meinung nach? è Der beobachtete Unterschied v. drei Wörtern ist eher selten, wenn es gar keinen

Unterschied geben würde. è Es liegt ein Fehler vor: Wenn es keinen Unterschied gibt, dürften wir auch keinen

beobachten.

2

Wenn es keinen Unterschied gibt, kann es zufällig vorkommen, dass wir einen Unterschied sehen. è Kein Unterschied → Ergebnis dieser Stichprobe eher komisch (Der beobachtete Unterschied v. drei Wörtern ist eher selten, wenn es gar keinen Unterschied geben würde.) – aber kein Beweis dafür, dass es einen gibt! Lernen, wie wir Daten erheben können, welche Aussagen damit möglich sind, wie wir Daten auswerten können und wie wir Modelle mit und über Daten erstellen können.

Einordnung des Beispiels: Wie sind Sie zu Ihrer ursprünglichen Einschätzung gekommen? Vielleicht u. a. auf Basis von Erfahrungen und (Vor-) Wissen. Wie ordnen Sie die Erkenntnisse der Studie ein? Vielleicht verwerfen Sie diese 1, vielleicht bestätigt die Studie Ihre Einschätzung, vielleicht revidieren Sie Ihre Einschätzung Fokus: Literaturrecherche ist zwingend erforderlich, damit wir ein Bild über den aktuellen Stand der Forschung, aber auch über das methodische Vorgehen anderer erhalten.

Kognitives Modell Datenanalyse v Schema: Ein mentales Modell, dass die ganze Bandbreite der Information über ein Thema beinhaltet v Modell: Repräsentation eines Ausschnitts innerhalb des Themas v Daten: Messungen der Realität

Realität Unterschiedliche Zugänge der Realität:

3

-

Wissenschaftlichen Realismus: existiert eine reale Welt unabhängig von der Sicht des Betrachtenden. Häufig: Quantitative Methoden.

-

Konstruktivismus: Wissen über die Wirklichkeit erst durch Wahrnehmung erschaffen wird. Häufig: Qualitative Methoden.

Weitere Erkenntnis-Theorien: Empirismus & Rationalismus.

Realität → komplex, tw. verdeckt & dynamisch → Chaosforschung

Theorie -

eine strukturierte Sammlung v. Hypothesen schlägt eine vorläufige Antwort auf eine offene Frage vor lässt sich kaum in ihrem vollen Umfang (auf einmal) prüfen zumeist an kausalen Beziehungen interessiert gute Theorien ermöglichen Vorhersagen, Erklärungen, Nutzen

Hypothese -

ist eine aus Theorie o. Beobachtung abgeleitet Aussage sind weniger umfangreich als Theorien stellen Vermutungen über einen Sachverhalt an ist eine provisorische Antwort auf eine wissen. Problem lassen sich überprüfen Kennzeichen – wissen. Hypothese: · eine allgemeingültige über den Einzelfall hinausgehende Behauptung · Häufig: Formalstruktur eines Konditionalsatzes, Implikation → Wenn x (Antezedens), dann y (Konsequenz).

Modelle -

Allgemeine vereinfachte Darstellungen relevanter Teiler der Realität Repräsentation der Realität durch Modelle ermöglicht eine einfachere Analyse Darstellung v. Modellen · Graphisch (Pfaddiagramm) · Verbal · In der Wissenschaft: Mathematisch-statistische Modelle zur Beschreibung der Realität

4

Wissenschaft. Schlusstechniken/Generierung v. Hypothesen Induktion: Theoriebildung - bottom up „von unten nach oben“

Einzellfall

Generell

Induktion geht vom Einzelnen zum Allgemeinen V. einzelnen Fällen und den Resultaten wird die Regel abgeleitet. Ausgangsbasis: Ziel:

Daten Generierung v. Hypothesen zur Bildung einer Theorie

Beispiel:

Einzelfälle: Albert E. ist ein Mensch & Marie C. ist ein Mensch Ergebnis: Marie C. und Albert E. haben einen Geburtstag Induktion/Regel: Alle Menschen haben ein Geburtstag Synonyme:

Verallgemeinerung Ableitung & Konsequenz

Generell

Einzelfall

Deduktion: Theorieprüfung – top down „v. oben nach unten“ Deduktion geht v. Allgemeinen zum Besonderen Ausgangsbasis: V. der Regel und dem Fall wird das Resultat abgeleitet Theorie 5

Beispiel:

Synonyme:

Überprüfung v. Hypothesen, die aus der Theorie abgeleitet werden

Regel: Alle Menschen haben Geburtstag. Einzelfall: Albert E. ist ein Mensch. Deduktion/Ableitung: Albert hat ein Geburtstag.

Ableitung, Schlussfolgerung, Folge, Konsequenz, Herleitung & Urteil

Weitere Beispiele: Eine Dozentin hat mehrfach beobachtet, dass ihre Studierenden interessiert am Fach Statistik sind. Nun schließt Sie, dass alle Studierenden interessiert am Fach Statistik sind. Welche Schlussart liegt vor? è Induktion è Deduktion è Induktion: hat empirisch etwas wiederholt beobachtet und daraus eine allg. Regel gewonnen.

Falsifikationsprinzip Induktionsproblematik: Kann durch Induktion v. Einzelbeobachtungen sicher auf ein allgemeines Gesetz, auch in Zukunft, geschlossen werden? Falsifikationsprinzip: Obwohl es nicht möglich ist, die Richtigkeit einer wissenschaftlichen Theorie auf Basis einer begrenzten Menge von Daten zu beweisen, ist es möglich zu beweisen, dass eine Theorie falsch ist. Wissenschaftliche Aussagen sollen daher nach Karl Popper empirisch wiederlegbar sein. Beispiel: Kann man die Hypothese beweisen, dass alle Schwäne weiß sind? § Das ist kaum / nicht möglich, man müsste die ganze Welt bereisen (und die Zukunft und die Vergangenheit). Und selbst dann: Wer weiß, vielleicht habe ich einen übersehen? § Zu zeigen, dass die Hypothese falsch ist, ist einfach: Ein schwarzer Schwan reicht, um zu zeigen, dass die Behauptung, alle Schwäne seien weiß, falsch ist! Ziel:

Beweis 6

Hat Sie die Aussage „alle Studierenden sind interessiert an Statistik“ endgültig bewiesen? è Ja. è Nein. è Vielleicht. è Nein. → … da es immer noch möglich ist, dass es Studierende gibt, die nicht an Statistik interessiert sind. Vllt woanders, zu einen anderen Zeitpunkt…

Forschen Gütekriterien für Forschung: Ethische Aspekte Können negative Folgen, z.B. bei befragten/untersuchten Personen auftreten? Auch: Datenschutz. Transparenz Das Vorgehen ist klar dokumentiert und nachprüfbar (und vllt reduzierbar)? Objektivität Sind die Ergebnisse unabhängig v. d. Pers.? Kommen andere zum selben Ergebnis? Interne Validität Keine anderen Erklärungen für die Ergebnisse? Ist der behauptete Zusammenhang richtig? Externe Validität Übertragbarkeit d. Ergebnisse? Zeigt sich der behauptete Zusammenhang auch in anderen Situationen?

Reduzierbarkeit Das Forschungsergebnis der Doz. („alle Studierenden sind interessiert an Statistik“) kann nicht reproduziert werden. Welcher Aspekt wissenschaftl. Arbeitens könnte verletzt sein? è è è è

Nur Objektivität Nur interne Validität Nur externe Validität Alle genannten Punkte

Qualitative und quantitative Forschung -

Qualitative Forschung: Wertet nicht-numerische Daten im Hinblick auf das Forschungsproblem interpretierend aus. Explorativ und stark induktiv ausgerichtet Verbalisierung d. Erfahrungswirklichkeit Wirklichkeitsinterpretationen → durch spezifische Handlungsweisen geprägt + strukturieren gleichzeitig das soziale Handeln d. Einzelpers. vor usw. 7

-

Quantitative Forschung: Werden numerische Daten im Hinblick auf das Forschungsproblem statistisch ausgewertet Ziel: Die Prüfung v. Hypothesen & Verallgemeinerbarkeit der Ergebnisse Ausschnitt d. beobachteten sozialen Vielfalt → Abbildung auf Skalen + mit der Häufigkeit, Mittelwert, Wahrscheinlichkeit des Auftretens v. Merkmalsausprägung operiert

Warum quantitative Datenanalyse? 3 è Auswerten um Rückschlüssel zu ziehen Beispiel: Wie gut schmeckt Ihnen das Essen in unserer Kantine? (Bewertung mit Schulnoten 1-5) è Auswertung: Durchschnitt ermitteln (Mittelwert)

Über alle Befragten! (gute Idee, oder?) 1. Szenario: 100 sagen – Note: 3 (ok) Mittelwert: Note: 3 → 100*3/100=3 2. Szenario: 50 sagen – Note: 1 (sehr gut) – Note: 5 (sehr schlecht) Mittelwert: Note: 3 → 50*1 + 50*5/100=3 Standardabweichung: Mittelwert → Daten sind um den MW:3 zerstreut

8

Standardabweichung 4,5 4 3,5 3 2,5 2 1,5 1 0,5 0 3 Datenreihe 1

Standardabweichung: Mittelwert → Daten sind nur im MW:3

Güterkriterien § §

Objektivität: Unabhängigkeit d. Beurteilung einer Sache v. Beobachter bzw. Subjekt z.B. Kreditrating verschiedener Agenturen Reliabilität: Egal was wir messen, durch Wiederholungen kommt immer dasselbe Ergebnis raus z.B. bei wiederholter anderer Messung dasselbe Ergebnis bzgl. Kundenzufriedenheit

Standardabweichung 4,5 4 3,5 3 2,5 2 1,5 1 0,5 0 1

5 Datenreihe 1

§ §

Validität: Das messen, was man messen möchte z.B. Unternehmenserfolg o. BilanzKniffe Genauigkeit: d.h. Exaktheit einer Messung z.B. „Umsatz hoch/niedrig“ o. in Euro 9

Beispiel: Alle drei Kriterien anhand eines Lineals (NPS - Net Promoter Score)

è Durch die Befragungen ein Rückschluss ziehen!!

· Datenerhebung Stichproben § § § § § §

sind eine Teilmenge d. Population, die Beobachtungen/Daten. In anderen Worten „probieren“ Population = Gesamtheit Stichprobe = Teil d. Gesamtheit Stichprobenverfahren = Prozess, mit dem die Teilmenge ausgewählt wurde Repräsentative Stichprobe = Verteilung der Eigenschaften der Stichprobe ähnlich der der Population? Bias = Systematischer Fehler/ Teil d. Population wird bevorzugt (Auswirkung auf das Danach kommen) Parameter = Wert d. Grundgesamtheit

Stichprobenverfahren § § § §

Zufall-Stichprobe → jede Beobachtung die gleiche Wahrscheinlichkeit, Teil d. Stichproben Geschichtete Stichproben -> setzen sich die Schichten aus ähnlichen Beobachtungen zusammen (z. B. Alter, Geschlecht). Gelegenheitsstichprobe → z.B. alle Studenten auf d. Fenster Seite Vollerhebung → z.B. Alle Studenten

10

Beobachtungsstudien und Experimente § §

Beobachtungsstudien→ Daten gesammelt, ohne die Entstehung der Daten zu beeinflussen (keine unmittelbaren Kausalaussagen möglich). Experiment→ der Wert der unabhängigen Variable(n) manipuliert und die Variation der abhängigen Variable gemessen

§ Grundlagen Quantitativer Datenanalyse Offene Übung: Experiment (Klausurfrage?) Warum ist die interne Validität bei einem randomisierten Experiment höher als z. B. bei Beobachtungsstudien? Antwort: Bei einem randomisierten Experiment besteht die Möglichkeit, die unabhängigen Variablen entsprechend zu variieren, um so äußere Einflüsse besser ausschließen zu können. Man hofft dabei, dass sich die Kovariablen unabhängig gleichmäßig verteilen. Die interne Validität steigt. Z.B. könnte eine Beobachtungsstudie zum Thema „Erfolg durch Studium“ verzerrte Ergebnisse liefern, da Menschen mit hoher Motivation und Vorbildung eher studieren als Menschen mit geringer Motivation könnte aber auch zu Erfolg führen – aber hier ist ein Experiment schwierig. Schlussmöglichkeiten Die Datenerhebung und die unmittelbar möglichen Schlüsse stehen im Zusammenhang mit den wissenschaftlichen Gütekriterien: Randomisierte Stichprobe: Externe Validität Randomisierte Zuordnung innerhalb eines Experimentes: Interne Validität

11

Griechische Buchstaben in den Folien

Quantitativer Forschungsprozess / PPDAC

Aufgabe) Überlegen Sie sich für Ihre Berufstätigkeit ein Beispiel für einen quantitativen Forschungsprozess (Power-Point Slide (eine Folie) anhand v Folie 88

12

Untersuchung der Nebenwirkung eines neuen Medikaments

Unternehmen kann durch die Daten der Analyse beruhende Liste v. Nebenwirkungen nachweisen

Mit Hilfe v. Testpersonen

Um Fehler zu beheben -> Gleicher Prozess findet statt mit einer Kontrollgruppe

Daten gesammelt, ausgewertet und interpretiert (Was passiert mit den Testpersonen?)

Kategoriale Skalenniveaus § §

Kategoriale Skala, qualitativ Nominal: Merkmalsausprägungen können unterschieden werden, bspw. Geschlecht. Ordinal: Merkmalsausprägungen können unterschieden und in eine Reihenfolge gebracht werden, bspw. Bildungsabschlüsse. Die Abstände zwischen den Werten können nicht direkt verglichen oder interpretiert werden. z.B. Augenfarbe, Studiengang, Geburtsort

Numerische / metrische Skalenniveaus

· ·

Numerisch / metrische Skala, quantitativ, kardinal Merkmalsausprägungen können unterschieden und in eine Reihenfolge gebracht werden, die Abstände sind vergleichbar. Intervallskala: Nullpunkt gesetzt, bspw. Zeitrechnung (Jahr 0). Verhältnisskala 1: (absoluter) Nullpunkt gegeben, bspw. Gewicht.

Weitere Unterscheidung: · Stetig: beliebige Zwischenwerte im Intervall sind möglich, bspw. Größe. · Diskret: höchstens abzählbar viele Werte sind möglich, bspw. Anzahl Kinder Übung: Skalenniveau Welches Skalenniveau hat die Variable Stundenlohn? a) Kategorial nominal. a) Kategorial ordinal. b) Metrisch stetig. 13

c) Metrisch diskret. Antwort: Metrisch stetig (c), obwohl die konkrete Auszahlung in der Regel gerundet auf zwei Nachkommastellen erfolgt („quasi-stetig”). Da ein absoluter Nullpunkt gegeben ist, ist die Variable verhältnisskaliert. Welches Skalenniveau hat die Variable Telefonvorwahl? a) Kategorial nominal. a) Kategorial ordinal. b) Metrisch stetig. c) Metrisch diskret. Antwort: a) Kategorial nominal: Die Telefonvorwahl stellt keine Zahl als solches dar; es werden Zahlen als Codierung verwendet. Die Interpretation der Telefonvorwahlen als Zahlen, die dann einen Vergleich zulassen, ist sinnlos (auch wenn man vermuten kann, dass höhere Telefonvorwahlen als Zahlen eher im Süden zu orten sind).

Skalen: Aussagen und Operationen Je nach Skalenniveau sind unterschiedliche Aussagen und Operationen möglich. § Kategorial – nominal: =, ≠ § Kategorial – ordinal: =, ≠, § Numerisch – Intervall: =, ≠, , +, −1 § Numerisch – Verhältnis: =, ≠, , +, −, ∗,:

Datensatz Aufbau eines Datensatzes:

§ § § § §

Zeilen: Beobachtungen – auf welcher Einheit liegen die Daten vor: Z. B. einzelne Menschen, Unternehmen, Länder. Hier Studierende. Spalten: Variablen – welche Eigenschaften / Merkmale liegen je Beobachtung vor: Motivation, Umsatz, Lebenserwartung. Hier Geschlecht (kategorial – nominal), Größe (Numerisch – verhältnisskaliert). Hinweis: Jede Zeile sollte genau eine Beobachtung beinhalten, jede Spalte genau eine Variable.

Zusammenhangsanalyse §

Abhängige Variable (AV – endogen, erklärt): 14

§ §

Wert hängt von der / den unabhängige(n) Variable ab („‫)“ݕ‬. Unabhängige Variable (UV – exogen, erklärend): Wert hängt von keiner anderen Variable ab („‫)“ݔ‬. Kovariablen / Störvariablen: Variablen, deren Wert ebenfalls auf die abhängige Variable einwirkt und / oder den Zusammenhang zwischen unabhängigen und abhängigen Variablen beeinflusst („1 .(“

Die Dozentin stellt fest, dass die Motivation der Studierenden mit der Uhrzeit zusammenhängt, und zwar unterschiedlich für Frauen und Männer. Welche Aussage stimmt? a) Es gibt eine abhängige Variable (Motivation), eine unabhängige Variable (Uhrzeit) und eine Kovariable (Geschlecht). b) Es gibt eine abhängige Variable (Uhrzeit), eine unabhängige Variable (Motivation) und eine Kovariable (Geschlecht). c) Es gibt zwei abhängige Variable (Motivation und Geschlecht) und eine unabhängige Variable (Uhrzeit). d) Es gibt eine abhängige Variable (Geschlecht) und zwei unabhängige Variablen (Motivation und Uhrzeit). Antwort: Motivation ist die abhängige Variable ‫ݕ‬, die evtl. von der unabhängigen Variable Uhrzeit ‫ ݔ‬abhängt. Das Merkmal Geschlecht beeinflusst die abhängige Variable bzw. den Zusammenhang und ist dadurch hier eine Kovariable ‫ݖ‬, also a). Aber auch eine Modellierung mit Geschlecht und Uhrzeit als unabhängige Variablen und Motivation als abhängige ist möglich.

· Einführung R R ist eine weit verbreitete Eintrittskarte in das globale Datenzeitalter!

Vorteil: ü M et hoden- und Anwendungsvielfalt (Finance, M arket ing, HR, Psychologie,..) ü Neue M ethoden der Dat enanalyse werden häufig in R ent wickelt (auch Big Dat a, KI, et c ü Frei und Of fen; kost enlos 15

ü ü ü ü ü ü

Schnit t st ellen zu sehr vielen Datenquellen / -banken (auch SocialM edia et c.) Erweit erungen u. a. für M icrosoft , Oracle, SAP Produkt e, aber auch SPSS, SAS Unzählige Nut zer* innen welt weit in Unternehmen und Wissenschaft M öglichkeit en für Reporting, Apps, et c. Numerische St abilit ät / Genauigkeit Große Entwickler * innen Gemeinde mit langer Geschicht e (seit 1993); R Konsort ium, u. a. IBM , M icrosoft , TIPCO, Google,..

Frage: Welchen Vorteil hat R aufgrund der Gütekriterien für Forschung? a) Kostenlos. b) Offen. Transparenz ist eines der Gütekriterien für Forschung, und die wird durch Offenheit ermöglicht, also b).

Statistik, R, Rstudio und mosaic § § § §

Statistik ist das Auto mit dem der Weg v. d. Forschungsfrage zur vorläufigen Antwort bestritten werden kann. R ist ein Motor, der das Auto antreiben kann. Rstudio Desktop ist das Cockpit, mit dem der Motor gesteuert werden kann. Mosaic ist eine Zusatzausstattung, um die Motorsteuerung zu vereinfachen.

R und co. § § §

R: Ist das Basisprogramm Rstudio Desktop: Ist eine komfortable Entwicklungsumgebung für R und bietet zusätzliche Tools, wie z.B. Dokumentenerstellung etc. Mosaic: Ist ein Zusatzpaket, welches u.a. eine vereinheitlichte R Syntax bietet

Installation v. Zusatzpaketen in RStudio:

Vorteil Code ü Dokumentation des Vorgehens ü ü ü ü

(Einfache) Nachvollziehbarkeit, Wiederholung Möglichkeit zur Automatisierung und Übertragung „Direkte“ Kommunikation mit dem Programm / Computer „Direkte“ Kommunikation mit dem Programm / Computer

16

CODE: mosaic

Analysiere (): Was soll R tun? Hinweis: Unter macOS:

Zentrale Fragen: 1. Was soll der Computer für mich tun? 2. Was muss der Computer dafür wissen?

DATENSATZ BIRTH –Streudiagramm erzeugen Schritt 1: R Studio aufmachen Schritt 2: install.packages (“mosaic“) inst...


Similar Free PDFs