Central topic - WISSENPUNT PDF

Title	Central topic - WISSENPUNT
Author	Haiyu Tan
Course	Datenanalyse
Institution	Karlsruher Institut für Technologie
Pages	11
File Size	184.2 KB
File Type	PDF
Total Downloads	90
Total Views	151

Preview

CLICK TO PREVIEW PDF

Summary

WISSENPUNT...

Description

DATENANALYSE TEILE 2 1. Merkmalsbewertung 1.1. wichtig?? 1.1.1. • Bewertung spielt Schlüsselrolle bei der Bestimmung von Struktur und Parametern, mehrere Aspekte:

1.2. Wieso sollte Merkmale bewertet? 1.2.1. • Quantifizierung, wie gut ein vorgegebenes Ziel erfüllt ist 对预设目标完成程度的量化 1.2.2. •Hilfsmaß für viele Verfahren 1.2.3. • Bewertungen für 

•Einzelne Merkmale (univariat)



•Gruppen von Merkmalen (multivariat)

1.2.4. • Verfahren 

(z.B. Klassifikation, Merkmalstransformation)

1.2.5. •für bessere Interpretierbarkeit vorzugsweise Zahl zwischen 

• 1 (optimal geeignet für eine bestimmte Aufgabe)



• 0 (ungeeignet für eine bestimmte Aufgabe) oder

1.3. Bewertungsstrategien

1

1.3.1. verschiedene Bewertungsstrategien, aber z.T. nur philosophische Unterschiede:   Wahrscheinlichkeiten bzw. deren Schätzung (Häufigkeiten) •

Wie wahrscheinlich ist es, dass ein Objekte zu einer Gruppe

gehört?   Geometrie (Distanz) - Wie ähnlich sind sich zwei Objekte? •

Beispiele: •

wirkliche Ausgangsgröße und Schätzung

•

zwei Datentupel für fehlerfreie Motoren im

Merkmalsraum •

zwei Datentupel für fehlerfreie Motoren im

Merkmalsraum •

zwei Tageskurven für einen Energieverbrauch in einem

Gebäude 1.3.2. Visualisierung von Korrelationskoeffizienten 

• Vorgehen: •

Berechnung der PearsonKorrelationskoeffizienten für alle

Merkmalspaare 

• Eigenschaften: •

•nicht jeder nichtlineare Zusammenhang wird erkannt (z.B.

keine quadratischen Zusammenhänge bei symmetrischer Datenverteilung) z.T. irreführende Ergebnisse bei Verletzungen 2

der Normalverteilungsannahme (z.B. durch Ausreißer, stark asymmetrische Verteilungen) •

• zeigt positive, negative und fehlende lineare

Zusammenhänge an 

• sollte durch Plotten der Zusammenhänge validiert werden



•Alternative Listenschreibweise: nur Korrelationskoeffizienten mit Beträgen größer Schwellwert (sinnvoll bei vielen Merkmalen und wenigen betragsgroßen Korrelationen) 备选列表表示法：仅与数量大于阈值的相关系数（对于许多特征和大量的相关性很少有用）

1.3.3. Spearmans Rangkorrelationskoeffizient 

• Eigenschaften: •

• robuster bei einzelnen Ausreißern 在有一些异常值的时候，会

较鲁棒 •

• besser bei monotonen nichtlinearen Zusammenhängen

(z.B. kubisch)（在三次方时效果较好） •

• geringe Unterschiede bei normalverteilten Merkmalen (wie

im Diagnose-Datensatz) •

•gleiche Probleme wie Pearson-Korrelationskoeffizient bei

ausgewählten nichtlinearen Zusammenhängen (u.a. quadratisch) 在非线性关系时会发生和 pearson 一样的情况（平方） •

• Weitere Verfahren auf der Basis von Rängen existieren

(Kendalls Tau usw.) 

• Vorgehen: 3

•

•Alle Werte werden der Größe nach sortiert. Und die Ränge

(Platzziffern) werden durchnummeriert. •

• Berechnung der Korrelation nicht für die Werte, sondern für

die Ränge. •

• Sonderbehandlung bei mehreren gleichen Werten

(Mittelwert der Ränge) 1.3.4. Streuungszerlegungssatz 散射分解定理 

Streuungszerlegungssatz

der

mehrdimensionalen

Normalverteilung: •

Dekomposition der Gesamtvariation T (engl. "total variance")

in



•

• Varianz zwischen Klassen B (engl. "between") und

•

• Varianz in den Klassen W (engl. "within")

ANOVA und MANOVA •

• ANOVA (ANalysis Of VAriances): •

• jedes zu bewertende Merkmal einzeln auswählen. Alle

Informationen aus dem Streuungszerlegungssatz berechnen, B = b und W = w sind skalar •

• MANOVA (Multivariate ANalysis Of VAriances) •

• jede zu bewertende Merkmalskombination auswählen,

Alle Informationen aus dem Streuungszerlegungssatz berechnen, B und W sind Matrizen

4



（ANOVA 选单个特征，MANOVA 选特征组合）



Gütekriterium •

• Determinante als Maß für das (Streu-)Volumen

•

• wichtigstes Hilfsbewertungsmaß für Filter-Ansatz

•

Interpretation: 解释： •

• Abstände zwischen den Klassen kleiner als Streuung

der Klassen selbst: det(B)det(W), Q 接近 1: Merkmal(e) gut für Klassifikation geeignet 1.3.5. Informationstheoretische Maße 

• Informationstheorie (Shannon und Wiener)

•

•ursprüngliche Anwendung: Quantifizierung der

Informationsmenge bei Nachrichtenübertragungen (Einheit Bit) 原始应用：量化消息传输中的信息量（单位） •

• gegeben: Häufigkeiten

• gesucht: Maß für nichtlineare und wertediskrete Zusammenhänge 计算非线性和离散值关系

5

•

• reellwertige Merkmale erst diskretisieren (Ergebnis

abhängig von Diskretisierungsvorschrift) 离散实值特征（结果取决于离散化规则） •

• Transinformation:

•

• Irrelevanz:

•

• Rückschlussentropie:

•

Maße geben im Zusammenspiel eine Bewertung des

beidseitigen Informationsflusses zwischen Ein- und Ausgangsgröße

•

Andere Bewertungsmasse •

• Transinformation = 0: kein Zusammenhang

(Verbundhäufigkeit = Häufigkeiten Eingang * Ausgang) •

• Transinformation = Gesamtentropie: ein eindeutiger

Zusammenhang •

• Irrelevanz = 0: eindeutig: Eingangsgröße zu

Ausgangsgröße •

• Rückschlussentropie = 0: eindeutig: Ausgangsgröße zu

Eingangsgröße 6

1.3.6. Distanz 



Wichtige Distanzen •

Triviale Distanz

•

Minkowski Distanz

•

Manhattan Distanz

•

Euklidische Distanz

•

Quadtratische Distanz

•

Mahalanobis Distanz

•

WICHTIG!!!:Berechnung der Distanzen

KOMMENTARE •

Auswahl hängt vom Problem ab, keine goldene Regel für

Auswahl •

wichtige Aspekte •

Berücksichtigung unterschiedlicher Skalierungen und

gegenseitiger Korrelationen • •

Schätzung aus Daten

Beispiele： Datentupeldistanzen •

was ist Datentupeldistanz? •

Berechnung paarweiser Distanzen zwischen allen

oder bestimmten Datentupel 7

•

z.B. mit Euklidischer Distanz nach Varianznormierung für

ausgewählten Merkmale •

KOMMENTARE •

ACHTUNG：abhängig von ausgewälten Merkmalen,

Datentupel und Distanzmaß •

funktioniert auch gut in hochdimensionalen Räumen

•

Matrix ist symmetrisch(Eigenschaften einer Metrik)

•

unübersichtlich bei vielen Datentupel

1.4. Zusammenfassung und Kommentare 1.4.1. ANOVA und MANOVA: 

WENN FUNKTIONIERT GUT: •

• meist sehr leistungsfähig bei Einhaltung der

Verteilungsannahme (Normalverteilung in Klassen) •

• finden auch "schräge Trennungen"

•

• MANOVA eignet sich, um gute, aber redundante Merkmale

abzuwählen •

• funktionieren auch dann gut, wenn die Verteilung zwar

nicht normalverteilt, aber "einigermaßen" symmetrisch und kompakt ist 

WENN PROBLEMATISCH:

8

•

• wenn einzelne Klassen sehr weit weg und andere dicht

zusammenliegen (bessere Merkmale für Klassifikation werden u.U. schlechter bewertet), auch bei Normalverteilungen für die einzelnen Klassen! •

• bei wichtigen Klassen mit extrem geringen

Datentupelzahlen (gehen in Berechnung "unter") •

• Klassen mit nichtkompakten Verteilungen

•

• Klassen mit stark asymmetrischen Verteilungen

1.4.2. Informationstheoretische Maße 

WENN FUNKTIONIERT GUT: •

• gute Alternative bei nichtkompakten Verteilungen

•

• passen sehr gut zu Entscheidungsbäumen und Fuzzy-

Regeln •

• funktionieren nur bei sinnvollen Diskretisierungen

•

• funktionieren auch bei nominalen Einzelmerkmalen

("Diskretisierung": alle vorkommenden Werte) 

WENN PROBLEMATISCH: •

• Probleme bei multivariater Beurteilung:

•

• zu wenig Datentupel pro Diskretisierungsgebiet

•

• Probleme bei stark korrelierten Merkmalen（特征强相关问题

“强相关又称高度相关，即当一列变量变化时，与之相应的另一列变量增大（或减少）的可能性非常大。”） 9

2. Merkmalsselektion 2.1. Mit welchen Maßen wird die Bewertung durchgeführt? 2.1.1. • Wrapper-Ansatz: 

1. Komplettes System (z.B. ein Klassifikator) wird mit den ausgewählten Merkmalen entworfen und bewertet



2.

Bewertungsmaß

des

kompletten

Systems

wird

als

Bewertungsmaß für die Eignung der ausgewählten Merkmale verwendet 2.1.2. • Filter-Ansatz: 

(einfacher zu berechnendes) Hilfsbewertungsmaß wird für jedes Merkmal oder jede Merkmalskombination berechnet, ohne das komplette System zu entwerfen



z.B. ANOVA, MANOVA, Informationstheoretisches Maß

2.1.3. KOMMENTARE(VPRTEILE-NACHTEILE) 

• Wrapper-Ansätze bzgl. der Bewertungsqualität oft besser, aber u.U. deutlich Aufwändiger（Wrapper 方法一般情况下评价质量较好，但是也更耗时耗力）

2.2. Verfahren der Merkmalsselektion und -bewertung 2.2.1. Ziel der Bewertung: geeignete(s) Merkmal(e) 

z.B. •

• für ein Clusterverfahren 10

•

• für eine Regression

•

• für eine Klassifikation

2.3. Auf welche Merkmale bezieht sich die Bewertung? 2.3.1. • univariat (Bewertung der Eignung eines einzelnen Merkmals 评估单个特征的适用性): ohne Berücksichtigung anderer Merkmale 2.3.2. •

multivariat

(Bewertung

der

Eignung

eine

Gruppe

von

Merkmalen 评估一组特征的适用性 ): mit Berücksichtigung anderer Merkmale 

– alle Kombinationen prüfen (meist zu aufwändig, Kombination ohne Wiederholung, also z.B. 3 aus 100 Merkmalen = 100!/(97! *3!) = 161700)



–

schrittweises

Hinzufügen

Merkmalskombination

zur

(Vorwärtsselektion,

bislang z.B.

3

besten aus

100

Merkmalen = 100+99+98 = 297) 到目前为止逐渐增加了最佳功能组合，正向选择 

–

schrittweises

Weglassen

des

schlechtesten

Merkmals

(Rückwärtsselektion, z.B. 3 aus 100 Merkmalen = 100+.. + 4 = 5044) 逐步省略最差特征（向后选择，如，100 个特征中的 3 个 

– gezieltes Probieren (Evolutionäre Algorithmen) 有目的的测试（进化算法）

11...