Title | Central topic - WISSENPUNT |
---|---|
Author | Haiyu Tan |
Course | Datenanalyse |
Institution | Karlsruher Institut für Technologie |
Pages | 11 |
File Size | 184.2 KB |
File Type | |
Total Downloads | 90 |
Total Views | 151 |
WISSENPUNT...
DATENANALYSE TEILE 2 1. Merkmalsbewertung 1.1. wichtig?? 1.1.1. • Bewertung spielt Schlüsselrolle bei der Bestimmung von Struktur und Parametern, mehrere Aspekte:
1.2. Wieso sollte Merkmale bewertet? 1.2.1. • Quantifizierung, wie gut ein vorgegebenes Ziel erfüllt ist 对预设 目标完成程度的量化 1.2.2. •Hilfsmaß für viele Verfahren 1.2.3. • Bewertungen für
•Einzelne Merkmale (univariat)
•Gruppen von Merkmalen (multivariat)
1.2.4. • Verfahren
(z.B. Klassifikation, Merkmalstransformation)
1.2.5. •für bessere Interpretierbarkeit vorzugsweise Zahl zwischen
• 1 (optimal geeignet für eine bestimmte Aufgabe)
• 0 (ungeeignet für eine bestimmte Aufgabe) oder
1.3. Bewertungsstrategien
1
1.3.1. verschiedene Bewertungsstrategien, aber z.T. nur philosophische Unterschiede: Wahrscheinlichkeiten bzw. deren Schätzung (Häufigkeiten) •
Wie wahrscheinlich ist es, dass ein Objekte zu einer Gruppe
gehört? Geometrie (Distanz) - Wie ähnlich sind sich zwei Objekte? •
Beispiele: •
wirkliche Ausgangsgröße und Schätzung
•
zwei Datentupel für fehlerfreie Motoren im
Merkmalsraum •
zwei Datentupel für fehlerfreie Motoren im
Merkmalsraum •
zwei Tageskurven für einen Energieverbrauch in einem
Gebäude 1.3.2. Visualisierung von Korrelationskoeffizienten
• Vorgehen: •
Berechnung der PearsonKorrelationskoeffizienten für alle
Merkmalspaare
• Eigenschaften: •
•nicht jeder nichtlineare Zusammenhang wird erkannt (z.B.
keine quadratischen Zusammenhänge bei symmetrischer Datenverteilung) z.T. irreführende Ergebnisse bei Verletzungen 2
der Normalverteilungsannahme (z.B. durch Ausreißer, stark asymmetrische Verteilungen) •
• zeigt positive, negative und fehlende lineare
Zusammenhänge an
• sollte durch Plotten der Zusammenhänge validiert werden
•Alternative Listenschreibweise: nur Korrelationskoeffizienten mit Beträgen größer Schwellwert (sinnvoll bei vielen Merkmalen und wenigen betragsgroßen Korrelationen) 备选列表表示法:仅与数量大 于阈值的相关系数(对于许多特征和大量的相关性很少有用)
1.3.3. Spearmans Rangkorrelationskoeffizient
• Eigenschaften: •
• robuster bei einzelnen Ausreißern 在有一些异常值的时候,会
较鲁棒 •
• besser bei monotonen nichtlinearen Zusammenhängen
(z.B. kubisch)(在三次方时效果较好) •
• geringe Unterschiede bei normalverteilten Merkmalen (wie
im Diagnose-Datensatz) •
•gleiche Probleme wie Pearson-Korrelationskoeffizient bei
ausgewählten nichtlinearen Zusammenhängen (u.a. quadratisch) 在非线性关系时会发生和 pearson 一样的情况(平方) •
• Weitere Verfahren auf der Basis von Rängen existieren
(Kendalls Tau usw.)
• Vorgehen: 3
•
•Alle Werte werden der Größe nach sortiert. Und die Ränge
(Platzziffern) werden durchnummeriert. •
• Berechnung der Korrelation nicht für die Werte, sondern für
die Ränge. •
• Sonderbehandlung bei mehreren gleichen Werten
(Mittelwert der Ränge) 1.3.4. Streuungszerlegungssatz 散射分解定理
Streuungszerlegungssatz
der
mehrdimensionalen
Normalverteilung: •
Dekomposition der Gesamtvariation T (engl. "total variance")
in
•
• Varianz zwischen Klassen B (engl. "between") und
•
• Varianz in den Klassen W (engl. "within")
ANOVA und MANOVA •
• ANOVA (ANalysis Of VAriances): •
• jedes zu bewertende Merkmal einzeln auswählen. Alle
Informationen aus dem Streuungszerlegungssatz berechnen, B = b und W = w sind skalar •
• MANOVA (Multivariate ANalysis Of VAriances) •
• jede zu bewertende Merkmalskombination auswählen,
Alle Informationen aus dem Streuungszerlegungssatz berechnen, B und W sind Matrizen
4
(ANOVA 选单个特征,MANOVA 选特征组合)
Gütekriterium •
• Determinante als Maß für das (Streu-)Volumen
•
• wichtigstes Hilfsbewertungsmaß für Filter-Ansatz
•
Interpretation: 解释: •
• Abstände zwischen den Klassen kleiner als Streuung
der Klassen selbst: det(B)det(W), Q 接近 1: Merkmal(e) gut für Klassifikation geeignet 1.3.5. Informationstheoretische Maße
• Informationstheorie (Shannon und Wiener)
•
•ursprüngliche Anwendung: Quantifizierung der
Informationsmenge bei Nachrichtenübertragungen (Einheit Bit) 原始应用:量化消息传输中的信息量(单位) •
• gegeben: Häufigkeiten
• gesucht: Maß für nichtlineare und wertediskrete Zusammenhänge 计算非线性和离散值关系
5
•
• reellwertige Merkmale erst diskretisieren (Ergebnis
abhängig von Diskretisierungsvorschrift) 离散实值特征(结果取决 于离散化规则) •
• Transinformation:
•
• Irrelevanz:
•
• Rückschlussentropie:
•
Maße geben im Zusammenspiel eine Bewertung des
beidseitigen Informationsflusses zwischen Ein- und Ausgangsgröße
•
Andere Bewertungsmasse •
• Transinformation = 0: kein Zusammenhang
(Verbundhäufigkeit = Häufigkeiten Eingang * Ausgang) •
• Transinformation = Gesamtentropie: ein eindeutiger
Zusammenhang •
• Irrelevanz = 0: eindeutig: Eingangsgröße zu
Ausgangsgröße •
• Rückschlussentropie = 0: eindeutig: Ausgangsgröße zu
Eingangsgröße 6
1.3.6. Distanz
Wichtige Distanzen •
Triviale Distanz
•
Minkowski Distanz
•
Manhattan Distanz
•
Euklidische Distanz
•
Quadtratische Distanz
•
Mahalanobis Distanz
•
WICHTIG!!!:Berechnung der Distanzen
KOMMENTARE •
Auswahl hängt vom Problem ab, keine goldene Regel für
Auswahl •
wichtige Aspekte •
Berücksichtigung unterschiedlicher Skalierungen und
gegenseitiger Korrelationen • •
Schätzung aus Daten
Beispiele: Datentupeldistanzen •
was ist Datentupeldistanz? •
Berechnung paarweiser Distanzen zwischen allen
oder bestimmten Datentupel 7
•
z.B. mit Euklidischer Distanz nach Varianznormierung für
ausgewählten Merkmale •
KOMMENTARE •
ACHTUNG:abhängig von ausgewälten Merkmalen,
Datentupel und Distanzmaß •
funktioniert auch gut in hochdimensionalen Räumen
•
Matrix ist symmetrisch(Eigenschaften einer Metrik)
•
unübersichtlich bei vielen Datentupel
1.4. Zusammenfassung und Kommentare 1.4.1. ANOVA und MANOVA:
WENN FUNKTIONIERT GUT: •
• meist sehr leistungsfähig bei Einhaltung der
Verteilungsannahme (Normalverteilung in Klassen) •
• finden auch "schräge Trennungen"
•
• MANOVA eignet sich, um gute, aber redundante Merkmale
abzuwählen •
• funktionieren auch dann gut, wenn die Verteilung zwar
nicht normalverteilt, aber "einigermaßen" symmetrisch und kompakt ist
WENN PROBLEMATISCH:
8
•
• wenn einzelne Klassen sehr weit weg und andere dicht
zusammenliegen (bessere Merkmale für Klassifikation werden u.U. schlechter bewertet), auch bei Normalverteilungen für die einzelnen Klassen! •
• bei wichtigen Klassen mit extrem geringen
Datentupelzahlen (gehen in Berechnung "unter") •
• Klassen mit nichtkompakten Verteilungen
•
• Klassen mit stark asymmetrischen Verteilungen
1.4.2. Informationstheoretische Maße
WENN FUNKTIONIERT GUT: •
• gute Alternative bei nichtkompakten Verteilungen
•
• passen sehr gut zu Entscheidungsbäumen und Fuzzy-
Regeln •
• funktionieren nur bei sinnvollen Diskretisierungen
•
• funktionieren auch bei nominalen Einzelmerkmalen
("Diskretisierung": alle vorkommenden Werte)
WENN PROBLEMATISCH: •
• Probleme bei multivariater Beurteilung:
•
• zu wenig Datentupel pro Diskretisierungsgebiet
•
• Probleme bei stark korrelierten Merkmalen(特征强相关问题
“强相关又称高度相关,即当一列变量变化时,与之相应的另一列变量增大 (或减少)的可能性非常大。”) 9
2. Merkmalsselektion 2.1. Mit welchen Maßen wird die Bewertung durchgeführt? 2.1.1. • Wrapper-Ansatz:
1. Komplettes System (z.B. ein Klassifikator) wird mit den ausgewählten Merkmalen entworfen und bewertet
2.
Bewertungsmaß
des
kompletten
Systems
wird
als
Bewertungsmaß für die Eignung der ausgewählten Merkmale verwendet 2.1.2. • Filter-Ansatz:
(einfacher zu berechnendes) Hilfsbewertungsmaß wird für jedes Merkmal oder jede Merkmalskombination berechnet, ohne das komplette System zu entwerfen
z.B. ANOVA, MANOVA, Informationstheoretisches Maß
2.1.3. KOMMENTARE(VPRTEILE-NACHTEILE)
• Wrapper-Ansätze bzgl. der Bewertungsqualität oft besser, aber u.U. deutlich Aufwändiger(Wrapper 方法一般情况下评价质量较好, 但是也更耗时耗力)
2.2. Verfahren der Merkmalsselektion und -bewertung 2.2.1. Ziel der Bewertung: geeignete(s) Merkmal(e)
z.B. •
• für ein Clusterverfahren 10
•
• für eine Regression
•
• für eine Klassifikation
2.3. Auf welche Merkmale bezieht sich die Bewertung? 2.3.1. • univariat (Bewertung der Eignung eines einzelnen Merkmals 评 估单个特征的适用性): ohne Berücksichtigung anderer Merkmale 2.3.2. •
multivariat
(Bewertung
der
Eignung
eine
Gruppe
von
Merkmalen 评估一组特征的适用性 ): mit Berücksichtigung anderer Merkmale
– alle Kombinationen prüfen (meist zu aufwändig, Kombination ohne Wiederholung, also z.B. 3 aus 100 Merkmalen = 100!/(97! *3!) = 161700)
–
schrittweises
Hinzufügen
Merkmalskombination
zur
(Vorwärtsselektion,
bislang z.B.
3
besten aus
100
Merkmalen = 100+99+98 = 297) 到目前为止逐渐增加了最佳功能组 合,正向选择
–
schrittweises
Weglassen
des
schlechtesten
Merkmals
(Rückwärtsselektion, z.B. 3 aus 100 Merkmalen = 100+.. + 4 = 5044) 逐步省略最差特征(向后选择,如,100 个特征中的 3 个
– gezieltes Probieren (Evolutionäre Algorithmen) 有目的的测试(进 化算法)
11...