Mitschrift - Geostatistik Vorlesung - WS1516 PDF

Title Mitschrift - Geostatistik Vorlesung - WS1516
Author Thomas Müller
Course Geostatistik I
Institution Universität Augsburg
Pages 31
File Size 1.3 MB
File Type PDF
Total Downloads 92
Total Views 137

Summary

Download Mitschrift - Geostatistik Vorlesung - WS1516 PDF


Description

GEOSTATISTIK DR. JUCUNDUS JACOBEIT WINTERSEMESTER 2015/16 MITSCHRIFT VON LAURA FLOTTOW

Inhalt 1 Einführung Geostatistik ....................................................................................................................................... 1 1.1 Definitionen ............................................................................................................................................................. 1

2 Arten und Skalierung von Variablen ............................................................................................................... 3 3 Deskriptive Statistik ............................................................................................................................................... 5 3.1 Empirische Häufigkeitsverteilungen ........................................................................................................................ 5 3.2 Mittelungsmaße ...................................................................................................................................................... 6 3.3 Variationsmaße ....................................................................................................................................................... 9 3.4 Normalverteilung................................................................................................................................................... 12 3.5 Kumulative Anomalien...........................................................................................................................................13 3.6 Standardisierung von Variablen (Z-Transformation) .............................................................................................15

4 Analytische Statistik ............................................................................................................................................ 15 4.1 Theoretische Verteilung ........................................................................................................................................ 15 4.2 Extremereignisse ................................................................................................................................................... 18 4.3 Fehlerschätzung .................................................................................................................................................... 19 4.4 Test- und Prüfverfahren ........................................................................................................................................ 20 4.5 Auswahl spezieller Prüfverfahren .......................................................................................................................... 23

5 Korrelation und Regression.............................................................................................................................. 28

Geostatistik WS 2015/16

1 Einführung Geostatistik Liter Literatu atu aturve rve rverzei rzei rzeichnis chnis  

   

BAHRENBERG, G. & GIESE, E. (1975): Statistische Methoden und ihre Anwendung in der Geographie. Teubner Studienbücher. Stuttgart. BAHRENBERG, G., GIESE, E., MEVENKAMP, N. & NIPPER, J. (2010, 2008): Statistische Methoden in der Geographie. Band 1: Univariate und bivariate Statistik (2010). Band 2: Multivariate Statistik (2008). Teubner Studienbücher. SCHÖNWIESE, CH.-D. (2013): Praktische Statistik für Meteorologen und Geowissenschaftler. Stuttgart. WALSER, H. (2011): Statistik für Naturwissenschaftler. Stuttgart. ZIMMERMANN-JANSCHITZ, S. (2014): Statistik in der Geographie – Eine Exkursion durch die deskriptive Statistik. Graz. NORCLIFFE, G.B. (1981): Schließende Statistik für Geographen – Eine Einführung. Springer – Verlag.

1.1 Definitionen Statistik Maßzahl, die Daten zusammenfasst, die anhand einer Stichprobe erhoben wurden. Zusammenfassung von Daten zu Prozentwerten, Durchschnittswerten, oder es kann der Median oder der Mittelwert ermittelt werden. Statistiken basieren auf den Daten aus einer Stichprobe, nicht auf Daten aus der Grundgesamtheit! 

Deskriptive Statistik (beschreibende Statistik) Charakterisierung einer gegebenen Situation; Stichprobenbeschreibung  Wie variieren die Variablenwerte innerhalb der Grundgesamtheit bzw. wie verteilen sie sich auf die Elemente der Grundgesamtheit?  In welcher Raumeinheit nimmt die Variable besonders hohe oder niedrige Werte an und wo sind sie durchschnittlich ausgeprägt? Wie lässt sich die Verteilung insgesamt beschreiben? Sind die Werte hoch oder niedrig, streuen sie stark oder schwach?



Analytische Statistik (schließende Statistik) Erlaubt Wahrscheinlichkeitsaussagen über die Wahrheit einer Hypothese oder über Beziehungen zwischen Variablen zu machen, oder zu bestimmen aus welcher Population eine Stichprobe gezogen wurde; Schluss von Stichprobe auf Grundgesamtheit  Wie kann eine beobachtete Verteilung einer Variablen begründet werden?

Grundgesamtheit (Population) Gesamte Elementmenge, für die eine Aussage getroffen werden soll. Sie enthält alle möglichen Ereignisse eines definierten Teilbestandes oder Vorgangs.  Nicht eindeutig definierbar  Weisen einen endlichen oder unendlichen Umfang auf

Stichprobe Eine repräsentative endliche Teilmenge der Grundgesamtheit punktuelle Messreihen Ziel: Durch Eigenschaften der Stichprobe auf entsprechende Eigenschaften der Grundgesamtheit zu schließen  Wann ist die Stichprobe repräsentativ? Hängt ab vom Umfang der Stichprobe und vom Stichproben-Auswahlverfahren Umfang: Je stärker die Werte der untersuchten Variablen streuen, desto größer sollte der Stichprobenumfang sein

Mitschrift von Laura Flottow

1

Geostatistik WS 2015/16 Auswahlverfahren: Nur zufällige Auswahlverfahren jedes Element gleiche Chance gewährleisten Repräsentativität der Stichprobe und erlauben Schätzung der in der Stichprobe gegenüber der Grundgesamtheit auftretenden Abweichung

Zufallsstichprobe: Jedes Element, gleiche Chance  Systematische Stichprobe 1. Wird erreicht, indem man die Elemente in eine Rangordnung bringt, die zufällig sein kann oder Ausprägungen einer bestimmten Variable folgt. 2. Jedes x-te Element wird ausgewählt Bsp.: Man wählt aus einer alphabetisch geordneten Liste von Studenten an einer Universität zufällig aus 3. In Rangordnung darf keine Periodizität enthalten sein, die durch das Kriterium jedes x-ten Element reproduziert wird Bsp.: Stichprobe von Temperaturdaten einer Messstation für die letzten 100 Jahren die jeden 12. Wert aufnimmt Nicht repräsentativ, da immer nur die Temperatur des gleichen Monats (Dezember) die SP ist.  Geschichtete Stichprobe: Elemente einer endlichen Grundgesamtheit werden in Klassen (Schichten) zusammengefasst  Elemente aus der gleichen Klasse besitzen hinsichtlich der untersuchten Frage ähnliche Eigenschaften  Elemente aus verschiedenen Klassen unterschieden sich diesbezüglich Anschließend aus jeder Klasse eine Zufallsstichprobe entnehmen um herauszufinden wie groß der Anteil der Klasse in der Grundgesamtheit ist. Bsp.: Freizeitverhalten der Bevölkerung Einteilung der Bevölkerung nach Alter (Klassen ≤ 25,26 – 50,51 – 65, ≥ 65), um dann aus jeder Schicht eine Zufallsstichprobe zu ziehen.  Freizeitverhalten ändert sich mit Alter der Personen  Mehrfach – Schichtungen: Mehrere Variablen werden herangezogen Bsp.: Zusätzliche Sichtung nach Einkommen

Klumpenstichprobe: Aus Vielzahl ein „Klumpen“ Bsp.: Freizeitverhalten deutscher Großstadtbewohner Bewohner einer Großstadt (Bsp.: Frankfurt) aus Stichprobe ausgewählt Von dem Verhalten der Frankfurter soll auf Verhalten deutscher Großstadtbewohner geschlossen werden Weichen am stärksten von Zufallsstichprobe ab, nur selten repräsentativ Frankfurter kann über Freizeitangebot beeinflussbar sein, das nicht typisch für eine deutsche Großstadt ist Möglichkeit Repräsentativität einer Stichprobe wenigstens grob zu überprüfen, besteht darin zu untersuchen, ob Stichprobe ähnliche Eigenschaften wie Grundgesamtheit hinsichtlich von Variablen aufweist.

Mitschrift von Laura Flottow

2

Geostatistik WS 2015/16 Bsp.: Haushaltsbefragung zum Freizeitverhalten in einer Stadt z.B. abgeglichen werden, ob wichtige Charakteristik wie Haushaltsgröße, Einkommen, etc. bei den befragten Haushalten mir derjenigen für die gesamte Stadt übereinstimmen.

Signifikanztest Ein statistisch signifikantes Ergebnis ist ein Ergebnis, bei dem die Wahrscheinlichkeit sehr gering ist, dass es nur zufällig auftrat. Der p-Wert spiegelt diese Wahrscheinlichkeit wider.

2 Arten und Skalierung von Variablen Begr iff Sym bol Begriff Symbol Variable A, B, … Merkmal Aj, Bj, … (j = 1, 2, …) Ereignisse Ei Merkmalswerte (Daten) ai, bi, … (i = 1, 2, …)

Bsp .: Te mpe ratur mes sun Bsp.: Tempe mperatur raturmes messun sungg Lufttemperatur (z.B. am festen Ort zur variablen Zeit) Skala, z.B. in °C (äußere Grenzen klimatologisch festgelegt, z.B. -30°c +40°C) Tatsache, dass bei jeder Messung ein bestimmter Temperaturwert auftritt z.B. 15.1. 16.7, 14.3. … °C

Arten von Variablen Qualitative (artmäßige) Stellen keine Größenangabe dar, sondern nur eine Art der Bezeichnung bzw. Namensgebung Bsp.: Geschlecht, Familienstand, Wohnort, Stellung im Beruf, …

Mitschrift von Laura Flottow

Quantitative (zahlenmäßige) Vergleiche im Sinne einer Größer/Kleiner-Relation sind möglich Stetige Umfasst ein ganzes Intervall der reellen Zahlen (z.B. Alle Zahlen zwischen Minimum und Maximum) und damit überabzählbare unendlich viele Werte Bsp.: Temperaturen, Gewichte, Längen

Diskrete Nur bestimmte Zeitpunkte Können nur endliche und abzählbar unendlich viele unterschiedliche Werte annehmen Bsp.: Anzahl der Einwohner einer Stadt

3

Geostatistik WS 2015/16

Skalierung von Variablen





Nominalskala Qualitative Variablen Zahlen werden als „Namen“ ohne mathematische Bedeutung verwendet Rechnen ist bei der Nominalskala sinnlos Transformation führt zu Bsp.: Geschlecht, Familienstand, Wohnort, Stellung im Beruf, … Qualitätsverlust Ordinalskala Quantitative Variablen Mögliche Ausprägungen können verglichen werden und in eine Ordnung gebracht werden  Vergleiche sind sinnvoll, Differenzen und Verhältnisse jedoch sinnlos

Informations gehalt wird größer

Bsp.: Schülerlauf ohne Zeitmessung = Rangordnung aber keine Differenzangabe Der zeitliche Abstand zwischen 1 und 2 ist gleich dem zeitlichen Abstand zwischen 9 und 10 auch wenn Differenz der Rangplätze jeweils 1 ist.



Metrische Skala Konstante Maßeinheit (1m, 1 g, 1 °C, …) Differenzen und Summen von zwei oder mehr Werten kann sinnvoll gebildet werden Aussagen wie Element A größer als B Unterschied zwischen beiden Variablen lässt sich feststellen Intervallskala Besitzen keinen absoluten Nullpunkt  Keine Aussage über Variablenwert von Elementen möglich Bsp.: Temperatur 30°C ist nicht doppelt so warm wie 15°C Rationalskala Besitzen einen absoluten Nullpunkt (= Nur, positive, keine negativen Variablenwerte) Bsp.: Größe von Gebieten in km2

Mitschrift von Laura Flottow

4

Geostatistik WS 2015/16

3 Deskriptive Statistik 3.1 Empirische Häufigkeitsverteilungen Um für Variablen mit einer großen Zahl von Elementen die Informationen über die wesentlichen Eigenschaften zu erhalten, wird man versuchen, einen besseren Überblick über die vielen Daten zu erreichen.  Genauer Variablenwert der einzelnen Elemente nicht mehr erkennbar  Ziel ist es von jeden Häufigkeitsverteilungen eine möglichst gute Übersichtlichkeit bei möglichst geringem Informationsverlust zu erlangen  Je weniger Klassen gebildet werden, desto übersichtlicher, aber desto größer der Informationsverlust

Absolute Häufigkeit Wie oft ko kommt mmt etw etwas as vor? Gibt jeweils die Anzahl der in der Klasse vorkommenden Werte an. hi (i=1…n), n = Stichprobenumfang

Relative Häufigkeit Abs Absolu olu olute te H Häufi äufi äufigkei gkei gkeitt / A Anza nza nzahl hl al aller ler Häuf Häufigk igk igkeiten eiten Für Vergleiche zweier Verteilungen mit einer unterschiedlichen Anzahl von Elementen. 𝑟ℎ𝑖 =

ℎ𝑖 𝑛

Bsp.: Notenspiegel Note 1 Abs Absolu olu olute te H Häufi äufi äufigkei gkei gkeitt 10

2 15

3 5

Rela Relative tive H Häufigk äufigk äufigkeit eit 10 30

15 30

5 30

30 Noten insgesamt 0.3, 0.5, 0.17

Prozentuale Häufigkeit Statistische Massen mit verschiedenen Umfängen können nicht miteinander in Beziehung gesetzt werden. Durch die Multiplikation der relativen Häufigkeit mit dem Wert 100 erzielt man Prozentwerte. 𝑟ℎ𝑖 =

ℎ𝑖 ∗ 100 𝑛

Mitschrift von Laura Flottow

5

Geostatistik WS 2015/16

Summenhäufigkeit (kumulative Häufigkeit) Summierung (Kumulation) der absoluten oder relativen Häufigkeiten in aufsteigender Reihenfolge Resultat: 

Absolute Summenhäufigkeit

Gibt die Anzahl aller statistischen Einheiten bis zu einer Merkmalsausprägung an. sh1 = h1, sh2 = h1+ h2, …, shn = h1 +… hn 

Relative Summenhäufigkeit

Gibt den Anteil der statistischen Einheiten an allen Einheiten bis zu einer Merkmalsausprägung an rsh1 = rh, rsh2 = rh1 + rh2, …, rshn =rh1 + … + rhn

 Bestrebung von Stichproben 1 Blockdiagramm, Klassifizierung der Daten 2 Säulendiagramm 3 Häufigkeitspolygon, Summenhäufigkeit (kumulative Häufigkeit sukzessive Addierung)

Orientierung bei Klassenaufteilung Aufteilung einer Stichprobe in gleichgroße Klassen/Intervalle, Zwei Stichproben können eine unterschiedliche Größe der Klassen besitzen k1 = 1 + 3.32 logn, k2 = 5 = logn n: Stichprobenumfang ki: empfehlenswerte Klassenzahl

3.2 Mittelungsmaße 

Arithmetischer Mittelwert



n



a   ai / n i 1

n = Stichprobenumfang    

Wird eingesetzt, um den Mittelpunkt eines numerischen Datensatzes, d.h. seine zentrale Tendenz, zu bemessen. Berechnet sich aus der Su Summ mm mme e all aller er Wer Werte te di dividi vidi vidiert ert d dur ur urch ch ihr ihre eA Anzah nzah nzahl.l. . Repräsentiert die Daten möglicherweise nicht angemessen, weil es leicht von Ausreißerwerten beeinflusst wird (d.h. von sehr kleinen oder sehr großen Werten im Datensatz, die für den Datensatz nicht typisch sind. Für die Berechnung ist ein metrisches Skalenniveau erforderlich, d.h. Daten müssen min. intervallskaliert sein.

Mitschrift von Laura Flottow

6

Geostatistik WS 2015/16



Klassenorientierter Mittelwert



K



a Kl   H k * KM k / n k 1

Hk = Häufigkeit der k-ten Klasse KMk = Klassenmitte K = Anzahl der Klassen Klassenhäufigkeit * Klassenmitte = Stichprobenumfang Liegt eine Häufigkeitsverteilung vor, so dient der klassenorientierte arithmetische Mittelwert zur Schätzung der Stichprobenbeschreibung (𝑎) 

Gewichteter Mittelwert

a g

     

 n n   gi *a i  /  gi   i 1 i1 

g = Gewichte Jedes Element * Gewicht / Summe der Gewichte Besteht die Gewissheit, dass die bei der Mittelung verwendeten Daten von unterschiedlichem Genauigkeitsgrad sind, so kann dies durch Gewichte berücksichtigt werden. Bsp Bsp.: .: Berechnen sie den Bevölkerungsschwerpunkt von Brasilien 𝑥= 

𝑥1 ∗ 𝐵𝑒𝑣1 + 𝑥2 ∗ 𝐵𝑒𝑣2 + 𝑥3 ∗ 𝐵𝑒𝑣3 𝐵𝑒𝑣1 + 𝐵𝑒𝑣2 + 𝐵𝑒𝑣3

Geometrischer Mittelwert

a

n n  a i G i 1

Wird bei logarithmischen Verteilungen bzw. geometrischen Reihen angewendet. Bsp. Bsp.:: Ein Dorf hatte 100 Einwohner im Jahre 1880 und 200 Einwohner im Jahre 1900. Die Abschätzung für 1890 ist dann: 𝐺 = √(100)(200) = √20 000 ≈ 141

Mitschrift von Laura Flottow

7

Geostatistik WS 2015/16



Modus (Gipfelwert)

a i Max hi  hi = Auftrittshäufigkeit im Rahmen der Stichprobenbeschreibung eine klassenorientierte Häufigkeitsverteilung vor, so ist der Modus die Klassenmitte der Klasse, welche die größte Häufigkeit der Merkmalswerte aufweist.



Median (Zentralwert, oder 2. Quartil) Med

 rhi  0,5

i 1

   

Bezeichnung:

~ ~ oder präziser mit 𝒙 𝒙

0.5

Wie der arithmetische Mittelewert ein Maß für den Mittelpunkt eines nummerischen Datensatzes Der Mittelwert wird von Ausreißerwerten beeinflusst, der Median jedoch NICHT Halbiert quasi die geordnete Wertereihe / Er ist der Punkt, an dem oberhalb und unterhalb gleich viele Datenpunkte liegen. Berechnung mit nominal- bzw. ordinalskalierten Daten möglich

Bsp. Bsp.:: Mittelstreifen auf der Autobahn. Er verläuft immer in der Straßenmitte und auf jeder Seite gibt es die gleiche Anzahl an Spuren

Um den Median zu finden, geht man wie folgt vor: 1. Zahlen in aufsteigender Reihenfolge ordnen 2. Wenn der Datensatz eine ungerade Anzahl an Werten enthält, wählen Sie den Wert, der genau in der Mitte liegt. 3. Wenn der Datensatz eine gerade Anzahl an Werten enthält, nimmt man die zwei Zahlen, die genau in der Mitte liegen und bildet deren Mittelwert. Dieser Wert ist der Median.

  



Median kann grafisch durch z.B. ein Histogramm dargestellt werden Ausreißerwerte am oberen Ende = recht rechtssch ssch sschief ief d.h. linksgipflig mit einem Ausläufer am rechten Rand Mittelwert > Median Ausreißerwerte am unteren Ende der Werteskala = lin linkssc kssc ksschief hief hief, d.h. rechtsgipflig mit einem Ausläufer am linken Rand Mittelwert < Median Daten symm ymmetris etris etrisch ch ch, d.h. haben sie rechts und links von der Mitte die gleiche Form gilt: Mittelwert = Median

Mitschrift von Laura Flottow

8

Geostatistik WS 2015/16



Quantile        

 

Überbegriff für Perzentil, Quartil und Median Median = ½ Spezialfall eines Quantils, nämlich das 50%-Quartil Quartil = ¼ Unterteilt eine Häufigkeitsverteilung in vier gleiche Abschnitte (Auch als Box – Whisker – Plot bekannt) Perzentil = 1/3 Einteilung in beliebige Anzahl gleichgroßer Teilmengen Je größer die Anzahl der Quantile, desto genauer die Stichprobenverteilung Beschreibung Rein fiktive Größe Kein guter Mittelwert = Datenlücke Andere Mittelwertgrößen wie Median müssen herangezogenen werden

Medianzentrum

d E : ( x1  x2 )²  ( y1  y2 )² Ist die Stichprobe eine dreidimensionale Stichprobe, so entspricht dem arithmetischen Mittelwert das arithmetische Mittelzentrum (mehrdimensionaler bzw. vektorieller arithmetischer Mittelwert)

3.3 Variationsmaße Außer den mittleren bzw. häufigsten Werten interessiert im Rahmen der Stichprobenbeschreibung nun weiterhin, we welch lch lche eV Varia aria ariation tion tionen en die zu u unte nte ntersu rsu rsuchen chen chenden den D Date ate aten n bein beinhal hal halten ten ten. In einem Datensatz gibt es immer Variationen, weil Testpersonen in der Regel nie dieselben Werte bei jeder Variable haben (Bsp.: Verfügbares Einkommen unterscheidet sich von Haushalt zu Haushalt, von Land zu Land und von Jahr zu Jahr; Weiteres Beispiel: Siehe rechte Abbildung). Will man dies durch eine einfache Zahl zum Ausdruck bringen, so kann man ein geeignetes Variationsmaß heranziehen.

Mitschrift von Laura Flottow

9

Geostatistik WS 2015/16 Defi Definitio nitio nition n ZZahl ahl der Fre Freihei ihei iheitsgra tsgra tsgrade de In der Statistik werden anhand einer Stichprobe die unbekannten Parameter einer Grundgesamtheit geschätzt. Die Anzahl n der unabhängigen Beobachtungswerte abzüglich der Anzahl u der schätzbaren Parameter wird als Anzahl der Freiheitsgrade 𝜈 bezeichne...


Similar Free PDFs