Zusammenfassung Kurseinheit 2 Business Inteligence PDF

Title	Zusammenfassung Kurseinheit 2 Business Inteligence
Course	Business Intelligence
Institution	FernUniversität in Hagen
Pages	25
File Size	1.2 MB
File Type	PDF
Total Downloads	66
Total Views	147

Preview

CLICK TO PREVIEW PDF

Summary

Zusammenfassung Kurseinheit 2 BI...

Description

Kurseinheit 2 Business Intelligence: 2. Knowledge Discovery in Databases: Der Prozess, der den Weg von den Rohdaten bis hin zum Wissen beschreibt, wird als KDD-Prozess bezeichnet.

2.1 Definition, Ziele und Aufgaben: „Knowledge Discovery in Databases is the non trivial process of identifying valid, novel, potentially useful and ultimately understandable patterns in data“. (Fayyad 1996). Ziele: • •

Muster in Datensätzen zu erkennen und explizit zu machen (Düsing 2006) Gewonnene Informationen müssen mit Erfahrungen und Anwendungszusammenhängen angereichert werden, um Wissen zu erlangen. Dieses Wissen kann Grundlage für die Lösung eines Entscheidungsproblems sein

Zur Erreichung dieser Ziele definiert Düsing 4 Grundaufgaben: 1. Bei der Bildung von Gruppen werden Datensätze, welche aufgrund ihrer Attribute ähnlich sind, zu einer Gruppe zusammengefasst. Anwendungsfeld: Clusteranalyse 2. Bei der Erklärung von Gruppen ist bereits bekannt, zu welcher Gruppe ein Datensatz gehört. Gesucht ist eine Erklärung der Zugehörigkeit in Form eines funktionalen Zusammenhangs zwischen den Attributen des Datensatzes und seiner Zuordnung zu einer Gruppe. Anwendungsfeld: Klassifizierungsverfahren 3. Bei der Erklärung von Zusammenhängen, können auch Funktionszusammenhänge kontinuierlicher Attribute untersucht werden. Anwendungsfeld: Regressionsanalyse 4. Bei der Beschreibung von Zusammenhängen wird untersucht, welcher Wert eines Attributs häufig mit welchem Wert eines anderen Attributs gemeinsam auftritt. Anwendungsfeld: Assoziationsanalyse

2.2 KDD-Prozesse in der Literatur: Der KDD-Prozess ist wissensintensiv und analystenzentriert. Der Prozess kann nicht vollständig automatisch ablaufen, denn es wird immer Menschlicher Input benötigt (Rolle der beteiligten Person = Analyst). Der KDD-Prozess nach Fayyad (1996): 1. Problemdefinition: Problemstellung und Ziele sowie die Domäne des KDD Projekts werden definiert. 2. Auswahl der Daten: Nur die Daten werden ausgewählt, die analysiert und zur Lösung des zuvor definierten Problems herangezogen werden sollen. 3. Bereinigung und Aufbereitung der Daten: Behandlung von Datenqualitätsproblemen 4. Reduktion oder Projektion: Transformation von Daten bspw. männlich=1 weiblich=0

5. Auswahl der Aufgabe: Aus den Grundaufgaben des KDD wird diejenige ausgewählt, welche für Fragestellung und Zielsetzung geeignet ist. 6. Auswahl des Algorithmus: Es werden ein oder mehrere DM-Methoden bzw. Algorithmen ausgewählt, welche geeignet sind. 7. Data Mining: Zentraler Schritt, n dem gezielt nach Mustern in den ausgewählten Daten gesucht wird. 8. Interpretation: Gefundene Muster werden mit Blick auf Fragestellung und Zielsetzung interpretiert. 9. Verwendung: Das erworbene Wissen wird dokumentiert, verbreitet, visualisiert, zur Entscheidungsfindung eingesetzt. Weitere KDD-Prozesse in der Literatur:

2.3 Einordnung von KDD in den Managementkreislauf: KDD ist kein Selbstzweck, sondern ordnet sich den Wissenszielen der Unternehmung bzw. des Entscheiders unter. Im Rahmen der BI bezieht sich dieses Wissensziel auf ein konkretes Entscheidungsproblem -prozess. KDD wird zum zentralen Bestandteil der Informationsbeschaffung im Rahmen der Entscheidungsvorbereitung, zu der auch die Alternativen Bewertung zu zählen ist. Die Entscheidung mündet in eine Handlung, deren Wirkung wiederum analysiert werden muss. So entsteht aus der neuen Situation ein neues Entscheidungsproblem.

Da das unmittelbare Ziel des KDD-Prozess Wissensgenerierung und nicht die eigentliche Entscheidung im engeren Sinne ist, kann der Prozess unmittelbar als Spezialfall des Intelligent Cycle aufgefasst werden.

Als Geschäftsprozess verstanden, steht der KDD-Prozess also in Wechselwirkung mit der Strategieebene und der IKT-Ebene des Unternehmens. Dabei stellen insbesondere die beiden Schritte Problemdefinition und Verwendung von Schnittstellen zur Unternehmensstrategie dar.

Um gute Resultate erzielen zu können, muss der KDD-Prozess in das Unternehmen und weitere Prozesse eingebettet werden (z.B. Marketing oder Vertrieb etc.). Denn KDD sollte nicht nur die technische Aufbereitung von Daten zu Information sein, sondern vielmehr, im Sinne einer echten Wissensgenerierung, eine Hilfestellung zur Vorbereitung und Beurteilung von Entscheidungen bieten.

3. Phase 1: Vorbereitende Schritte Auslöser für den KDD-Prozess ist das Auftreten eines Entscheidungsproblems (z.B. Gewinnrückgang) Wichtig ist, dass die ausgewählten Daten relevant sind. Vorbereitende Schritte zur Minimierung von Datenproblemen: • • • • •

Daten auswählen die repräsentativ für die Grundgesamtheit stehen Datenqualitätsprobleme wie z.B. fehlende Werte beheben Daten auf der richtigen Ebene aggregieren Abgeleitete Variablen konstruieren, um den Daten mehr Aussagekraft zu verleihen Irrelevante und irreführende Variablen entfernen

Die erste Phase ist von besonderer Bedeutung und bildet eine wesentliche Grundlage zur Erzielung von guten Ergebnissen im Rahmen des KDD-Prozesses.

3.1 Problemdefinition: Steht zu Beginn eines Entscheidungsprozesses In der Praxis sind die meisten Entscheidungsprobleme nur schlecht definiert, da die Phasen nur lose abgegrenzt sind, welche sich zyklisch wiederholen. Entscheidungstheorie: formale Modellierung von Entscheidungsprozessen ➔ Gibt Rahmenbedingung für Problemdefinition Ein Entscheidungsproblem gilt als wohlstrukturiert, wenn es die folgenden 4 Eigenschaften hat: • • • • ➔

Es existiert eine endliche Menge von Handlungsalternativen, die vollständig bekannt ist Zu jeder Handlungsalternative sind Konsequenzen und Ergebnisse bekannt Der Entscheider kann Ziele bzgl. der möglichen Ergebnisse formulieren Eine eindeutige Rangfolge der Handlungsalternativen bzgl. der Ziele Beispiel: Markov Decision Process (MDP)

Der Problemlösungsprozess als Führungsprozess (Hahn): 1. Problemstellungsphase: Entscheidungsaufgabe ermitteln, Soll-Ist-Vergleich, Ursachenanalyse 2. Suchphase: Mögliche Handlungsalternativen werden zusammengestellt und die günstigsten ausgewählt und untersucht. 3. Beurteilungsphase: Bewertung der Handlungsalternativen hinsichtlich der Zielsetzungen 4. Entscheidungsphase: Auswahl der Alternative mit dem höchsten Zielerreichungsgrad 5. Realisationsphase: Durchführung der Handlungsalternative 6. Kontrollphase: Ergebnisanalyse und eventuell neuer Entscheidungsprozess

Alternativmenge: Es liegt nur dann ein Entscheidungsproblem vor, wenn mindestens 2 Handlungsalternativen vorhanden sind, zwischen denen überhaupt entschieden werden kann. Die Alternativen müssen sich auf Sachverhalten beziehen, die der Entscheider auch beeinflussen kann. Vollkommene Alternativen-Stellung: Wenn der Entscheider gezwungen ist aus der Alternativmenge eine auszuwählen. Die Ergebnisse von Handlungsalternativen sind von zusätzlichen Faktoren abhängig. Die Kombination aller relevanten Einflussfaktoren wird als Zustand bezeichnet. Eine bedeutungsvolle Handlungsalternative hat Konsequenzen für mindestens eine Größe, die für den Entscheider von Interesse ist. Eine solche Größe wird als Zielvariable bezeichnet. Die Kombination aller relevanter Zielvariablen bestimmt das Ergebnis der Handlungsalternative. Handlungsalternativen sollten nach ihrem erwartetem Ergebnis beurteilt werden. Anforderungen an Ziele: • • •

Inhalt eines Ziels muss operational sein (d.h. durch eine Zielvariable messbar sein) Das Ausmaß des Ziels kann unbegrenzt sein (in der Praxis meist begrenzt) Zeitlicher Bezug des Ziels: statisches Ziel (fester Zeitpunkt), dynamisches Ziel (Vergleich mit einem anderen Zeitraum), kinetisches Ziel (Zeitverlauf)

3 verschiedene Beziehungsarten zwischen Zielen: • •

Indifferenz: Realisierung des einen Ziels hat keinen Einfluss auf die Realisation des anderen Komplementarität: o Symmetrisch: die Erreichung der beiden Ziele hängt wechselseitig voneinander ab o Asymmetrisch: Realisierung eines Ziel hat positiven Einfluss auf das andere, jedoch nicht umgekehrt.

Neben der Analyse der Problemstellung und Zielsetzung sollte, je nach Größe und Aufwand des KDDVorhabens ein Projektplan erstellt werden. Erstellung eines Projektplans: •

•

• •

Analyse und Beschreibung der Ressourcen o Personalressourcen (genug qualifiziertes Personal vorhanden?) o Sachressourcen (Vorhandensein von Hard/Software) Anforderungsanalyse o Zeitplan entwerfen (wann ist die Fertigstellung?) o Anforderungen and Qualität und Nachvollziehbarkeit der Ergebnisse Analyse der Beschränkungen o Ressourcenverfügbarkeit + gesetzliche Vorschriften oder Datenqualität Analyse der Projektrisiken o Vorbereitungen und Gegenmaßnahmen treffen

3.2 Auswahl der Daten. Nachdem die Problemstellung analysiert und daraus ein konkretes Entscheidungsproblem abgeleitet wurde, muss geprüft werden inwiefern die zur Verfügung stehenden Datenbasis dazu geeignet ist, dieses zu lösen. Problematik der Datenversorgung: • • •

•

Bedarf kann oft nicht erfüllt werden Viele Attribute wurden in der Vergangenheit noch nicht erhoben 3 verschiedene Probleme können auftreten: o Technische Probleme (Anforderungen von DM-Methoden an Datenbasis nicht erfüllbar) o Organisatorische Probleme (bspw. fehlende Zugriffsrechte auf Daten) o Rechtliche Einschränkungen (bspw. Schutz privater Daten) Daten auf verschiedenste Quellen verteilt

Bei zu großen Datenmengen bietet es sich an mehrere Instanzen zu einer einzigen zusammenzufassen. Eine weitere Möglichkeit zur Reduktion der Datenmenge bietet das Ziehen und Auswerten von Stichproben an Stelle einer Analyse und Verwendung aller Daten.

3.3 Bereinigung und Aufbereitung von Daten: Wichtigste Aufgabe im Bereich der Datenaufbereitung ist die Datenbereinigung Das Ziel der Datenbereinigung ist es, inkorrekte, inkonsistente oder unvollständige Daten nachträglich zu korrigieren und so für die Anwendung von Data Mining nutzbar zu machen. Datenbereinigung schafft temporäre Abhilfe bei Qualitätsproblemen, um jedoch eine langfristige Datenqualität zu sichern, müssen die Unternehmen aus ihren Fehlern lernen. Drei Modelle der Datengenerierung am Beispiel Proband 32 (Seite 25): (von Interesse ist nur das Alter der potentiellen Kunden) 1. Das ideale Modell: Angabe 32 Jahre alt, tatsächlich 32 Jahre alt 2. Das tatsächliche Modell: Tippfehler, Messfehler, Falschangaben können passieren 3. Angenommenes Bild: möglichst getreues Bild der Gesamtmenge darstellen nach Datenbereinigung Unterteilung in 3 Fehlerklassen: 1. Semantische Fehler: die als Konzept vorhanden Daten bilden das Universum nicht korrekt ab. Kann bspw. durch fehlerhafte Eingabe der Daten auftreten oder wenn die Realität nicht hinreichend genau beobachtet werden kann. 2. Coverage Fehler: der durch die vorhanden Datenmenge beschriebene Realitätsausschnitt ist kleiner als ursprünglich angenommen. 3. Syntaktische Fehler: genau wie bei semantischen Fehler bilden die Daten das Universum nicht korrekt ab. Jedoch liegt hier nicht der Fehler im Inhalt sondern in der Form der Daten vor, welcher es unmöglich macht diese zu Interpretieren. Bspw. Geschlecht „m“ anstatt „1“

Verschmutzung von Daten: „noisy data“: Intuitiv ist hierunter das Konzept zu verstehen, dass bei der Nachrichtenübermittlung neben dem gewollten Nutzsignal auch Störsignale beim Empfänger ankommen. Die Gesamtheit dieser Störsignale wird als Noise bezeichnet. Auf KDD bezogen; 3 Arten von Noise: 1. Instanzen, welche nicht zum betrachteten Universum gehören. 2. Attribute, welche keinen Aufschluss über den Untersuchungsgegenstand geben. 3. Attributwerte, welche falsch beobachtet oder gemessen wurden. Statistischer Noise: • • • •

Attributwerte sind von vornherein nicht richtig beobachtbar/messbar Kein unverfälschtes Signal -> Kombination aus Signal und Noise Daten aber in der Gesamtheit im Trend Daten sollte zwar frei von allen Arten des Noise gehalten werden, andererseits aber ist statistischer Noise in der Praxis so gut wie unvermeidbar und DM-Verfahren müssen demgegenüber robust sein.

Unzulässige Werte: • • •

Werte, die im Datenmodell syntaktisch nicht zulässig sind Kann durch Konsistenzprüfung automatisch erkannt werden Bei Korrektur können semantische Fehler auftreten – z.B. Tippfehler

Fehlende Werte: • • • • •

Fehlende oder unvollständige Werte (Nullwerte) „Keine Angabe“ (oft bei Einkommensabfragen) Die Option „leer“ sollte vorhanden sein Problem: unsinniges Muster durch leeren Eintrag (Kunden mit dem Einkommen „leer“ kauften oft Produkt A) Lösung: Ersatzwert bestimmen -> Verzerrung der Daten, richtigen Wert finden -> aufwendig

Redundanz: • •

Tritt auf, wenn unterschiedliche Datenbanken zur Haltung der gleichen Daten verwendet werden In diesem Fall sollten die Datenbanken verglichen werden und evtl. zusammengeführt werden

Unregelmäßigkeit: • •

Die Nicht einheitliche Verwendung oder Unregelmäßigkeit von Attributeinträgen Bspw. Angabe in Euro obwohl Daten in Dollar skaliert sind

Zuordnung der Fehlerarten zu Fehlerklassen:

Beurteilung von Fehlern: • • •

Es ist nicht möglich alle Fehler im Nachhinein zu beheben Datenqualitätsprobleme sollten mithilfe IS aktiv vorgebeugt werden Möglichst früh fehlerhafte Daten korrigieren

Problematik der fehlerhaften Daten muss hinsichtlich verschiedener Kriterien priorisiert werden. Zwirner hat dazu 8 verschiedene Beurteilungskriterien dargestellt: 1. Die Bedeutung der Daten: a. Wo kann sich das Unternehmen keine Fehler leisten? 2. Anforderungen an die Datenqualität: a. gesetzliche Anforderungen, strategische Anforderungen oder projektspezifische Anforderungen an die Daten 3. Natur der Fehlerursache: a. Fachliche Fehler betreffen die fachliche Richtigkeit der Daten, technische Fehler betreffen meist die Logik in Datenbanken (werden durch das technische IS verursacht) 4. Art der möglichen Bereinigung: a. Manuelle Bereinigung: bei einer geringen Fehleranzahl und es liegt keine einfach Regel zur Fehlerbehebung vor. b. Maschinelle Bereinigung: bietet sich bei einer sehr großen Fehlerzahl an, wenn Regeln automatisiert korrigiert werden können. 5. Änderungshäufigkeit der Daten: a. Datenbereinigung in kürzeren Zeitabständen oder größeren b. Aufwand bei statischen Daten geringer als bei dynamischen 6. Anzahl der Datenfehler: a. Große Anzahl an Daten -> großes Problem aber umso größerer positiver Effekt bei Bereinigung der Fehler 7. Maßnahmen zur Vermeidung neuer Fehler: a. Fokus in der Praxis auf bereits begangenen Fehlern b. Maßnahmen zur Vermeidung von Wiederholungsfehlern 8. Aufwand für Maßnahmen: a. Aufwand für Fehlerbehebung sollte dem Nutzen gegenübergestellt werden

Im Umgang mit Fehler müssen alle zuvor genannten Kriterien abgewogen werden. Im Wesentlichen stehen dem Entscheider 3 Möglichkeiten zur Verfügung, wie Fehler gehandhabt werden können: 1. ➔ 2. ➔

Laissez- Faire Verhalten: Bei Fehlern die selten auftreten, oder nicht schwerwiegende Konsequenzen mit sich bringen. Reaktive Vorgehen: Fehler bereinigen, wenn er entdeckt wird, jedoch keine Maßnahmen eingeführt, die das zukünftige Auftreten verhindern 3. Proaktive Vorgehen: ➔ Maßnahmen werden zur künftigen Vermeidung und Überwachung der betreffenden Fehlerquellen eingeführt

3.4 Projektion und Reduktion von Attributen: Für jedes Attribut kann ein Skalenniveau angegeben werden. Es wird in 4 Niveaustufen unterschieden: •

• • •

Bei nominal skalierten Attributen können die einzelnen Attributwerte zwar eindeutig und überschneidungsfrei unterschieden werden, andere Aussagen über die Beziehung der Attributwerte zueinander sind jedoch nicht möglich. (Waage-Nummer vom Gemüse im Supermarkt) Ordinal skalierte Attribute erlauben, Attributwerte in eine Rangfolge zu bringen. Bei der Intervallskala lassen sich zusätzlich zu den vorgenannten Eigenschaften auch Differenzen zwischen den einzelnen Attributwerten bilden. Eine Verhältnisskala zeichnet sich zusätzlich dadurch aus, dass es einen natürlichen Nullpunkt der Attributwerte gibt. Nur dann ist die Bildung von Verhältnissen sinnvoll.

Attribute welche nominal oder ordinal skaliert sind, haben qualitativen Charakter. Sie werden oft auch als kategorische Attribute bezeichnet, da die Attributwerte nur diskrete Kategorien abbilden. Attribute mit einer Intervall- oder Verhältnisskala sind quantitativ und natürlicherweise numerisch. Anders als bei den qualitativen Attributen, kann der Wertebereich eines quantitativen Attributs entweder diskret oder kontinuierlich sein. Tukey schlägt vor, für einen ersten Überblick 5 einfache Kennzahlen heranzuziehen und sie in dem von ihm erfundenen Boxplot Format darzustellen. Die Kennzahlen haben zu dem den Vorteil, dass ihre Bestimmung lediglich ein ordinales Skalenniveau voraussetzt: 1. 2. 3. 4. 5. ➔

Minimum Maximum Median 1. Quartil 3. Quartil Je zentraler der Median zwischen dem ersten und dem dritten Quartil liegt, desto symmetrischer ist die Verteilung q (q=Attribut im Konzept X)

Eins-aus-N Kodierung: Voraussetzung: nichts weiter über ein nominal skaliertes Attribut ist bekannt, dann ist davon auszugehen, dass alle Ausprägungen voneinander unabhängig sind. Wenn die möglichen Attributwerte überschaubar sind, so kann eine unabhängige Kodierung erreicht werden, in dem für jeden Attributwert ein neues Attribut eingeführt wird. Nachteil: potenziell können sehr viele Ersatzattribute entstehen (hoher Speicherplatzbedarf und Rechenaufwand der verschiedenen DM-Algorithmen) n-aus-N Kodierung: Mit zusätzlichem Wissen aus U ist es möglich, die Anzahl der Ersatzattribute geringer als die Anzahl der Attribute zu halten Von N Ersatzattributen können n Attribute von 0 abweichen Grundidee: binäre Merkmale finden, die die verschiedenen Attributwerte differenzieren Dummy Kodierung: Ursprung in der Regressions- und Varianzanalyse Häufige Verwendung wo mit Test und Kontrollgruppen gearbeitet wird (bspw. Medizin) N-1 Dummyattribute; ein Attributwert wird überall mit 0 repräsentiert Bietet sich an, wenn ein Attributwert ausgezeichnet werden soll (z.B. zu Untersuchen sei der Beliebtheitsgrad der Gemüsesorten; Tomate gilt als beliebtestes Gemüse) Effekt-Kodierung: Nahezu identisch mit der Dummy-Kodierung und unterliegt den gleichen Voraussetzungen. Im Rahmen der Regressionsanalyse macht Sie den Effekt der einzelnen Attributwerte auf die abhängige Variable sichtbar. Unterschied zur Dummy-Kodierung ist, dass alle Ersatzattribute für den Referenzwert des ursprünglichen Attributs mit -1 anstelle von 0 kodiert werden.

Unäre Kodierung: Für ordinal skalierte Attribute Kodierung in fortlaufender dezimal Nummern

Kodierung numerische Attribute: Auch Attribute welche quantitativ-numerisch skaliert sind können trotzdem unterschiedliche Skalen verwenden. • Führt bei DM-Verfahren oft dazu, dass Attribute mit, absolut gesehen, großen Werten, solche mit kleinen Werten dominieren. ➔ Um dieses Problem zu umgehen gibt es 2 Verfahren, um dies zu umgehen: •

1. Standardisierung: • Wenn ein Attribut annähernd normalverteilt ist, aber nicht standardnormalverteilt, dann empfiehlt es sich das Attribut so zu standardisieren. 2. Normalisierung: • Wenn keine Normalverteilungsannahme getroffen werden kann; der Wertebereich eines Attributs wird auf ein gewünschtes Intervall verkleinert (Normalisierung).

Die Auswahl von Attributen: • • •

Reduzierung von Attributen oft sinnvoll Durch Selektion können bessere Ergebnisse erzielt werden (schneller) Attributauswahl oftmals in einige DM-Verfahren bereits integriert

2 grundsätzliche Vorgehensweisen zur Attributauswahl sind der Filteransatz und der Wrapperansatz. Der Filteransatz basiert darauf, dass unabhängig vom verwendeten DM-Algorithmus versucht wird, die relevanten Attribute auszuwählen und die übrigen Attribute herauszufiltern. Der Wrapperansatz berücksichtigt auch den jeweiligen DM-Algorithmus. Der Algorithmus wird als Blackbox betrachtet und wiederholt auf einen kleinen Teil von X angewendet, wobei die Attributmenge variiert wird. Die Attribute mit der besten Perfom...