WSTEP DO DATA MINING - ZAJECIA 1 PDF

Title	WSTEP DO DATA MINING - ZAJECIA 1
Author	Magdalena Kryska
Course	Data Mining
Institution	Szkola Glówna Handlowa w Warszawie
Pages	42
File Size	1019.2 KB
File Type	PDF
Total Downloads	75
Total Views	135

Preview

CLICK TO PREVIEW PDF

Summary

WSTEP DO DATA MINING - ZAJECIA 1 PREZENTACJA Z LABORATORIUM...

Description

DATA MINING – nr przedmiotu 223120-0997 Zakład Metod Statystycznych i Analiz Biznesowych ISiD SGH

Zajęcia 1

Wstęp do data mining

DATA MINING – nr przedmiotu 223120-0997 Zakład Metod Statystycznych i Analiz Biznesowych ISiD SGH

Struktura zajęć: • • • •

• • • •

Wstęp – czym jest data mining? Dwa nurty data mining The Cross-Industry Standard Process for Data Mining (CRISP-DM) Dane w procesach data mining – Źródła i rodzaje danych – Jakość danych – Braki danych – Ilość danych – wybór zmiennych i rekordów Próbkowanie Podział zbiorów w analizach data mining Metodologia SEMMA Business Intelligence

2

DATA MINING – nr przedmiotu 223120-0997 Zakład Metod Statystycznych i Analiz Biznesowych ISiD SGH

Czym jest data mining? Data mining is the process of discovering meaningful new correlations, pattern and trends by through large amounts of data stored in repositories, using pattern recognition technologies as well as statistical and mathematical techniques. Data mining – proces „drążenia danych”, służący uzyskaniu maksimum istotnych informacji z danych umożliwiających szybkie podejmowanie wiarygodnych i efektywnych decyzji. Data mining - proces eksploracji, modelowania i analizy danych mający na celu znalezienie istotnych reguł i zależności. Data mining to analiza zazwyczaj dużych, wcześniej zgromadzonych zbiorów danych w celu odkrycia nowych prawidłowości i opisania danych w nowy sposób, który jest zrozumiały i użyteczny dla właściciela danych. 3

DATA MINING – nr przedmiotu 223120-0997 Zakład Metod Statystycznych i Analiz Biznesowych ISiD SGH

Interdyscyplinarność data mining Data mining łączy w sobie i wykorzystuje metody i pojęcia stosowane w różnych dziedzinach nauki, takich jak: • Statystyka • Sztuczna inteligencja • Bazy danych • Rozpoznawanie wzorców • Sieci neuronowe • Maszynowe uczenie się Data mining – interdyscyplinarne podejście wykorzystujące techniki uczenia maszynowego, rozpoznawania obrazów, statystyki, baz danych oraz wizualizacji w celu wydobycia informacji z dużych baz danych. 4

DATA MINING – nr przedmiotu 223120-0997 Zakład Metod Statystycznych i Analiz Biznesowych ISiD SGH

Zastosowania data mining Biznes: • Klasyfikacja klientów (credit scoring, churn) • Zarządzanie relacjami z klientami • Pozyskiwanie nowych klientów • Utrzymywanie i segmentacja klientów • Łączenie ofert (cross-selling) • Wykrywanie nadużyć • Modelowanie odpowiedzi na kampanię marketingową. Medycyna: • Badanie podatności na określone choroby • Badanie skuteczności leków Internet: • Przeszukiwanie stron internetowych • Rozpoznawanie SPAMu Socjologia: • Badanie opinii publicznej

5

DATA MINING – nr przedmiotu 223120-0997 Zakład Metod Statystycznych i Analiz Biznesowych ISiD SGH

Dwa nurty data mining Data mining Skierowany

Nieskierowany

Techniki uczenia nadzorowanego

Techniki uczenia bez nadzoru

Uczenie z nauczycielem (supervised learning)

Uczenie bez nauczyciela (unsupervised learning)

Umożliwia on redukcję rozmiaru badanego problemu, ponieważ szuka odpowiedzi na postawione konkretnie pytania, np. Którzy klienci charakteryzują się wysokim ryzykiem niespłacenia kredytu? Którzy klienci charakteryzują się wysokim prawdopodobieństwem rezygnacji z usług firmy?

Służy do eksploracji danych w celu uzyskania interesujących i istotnych informacji z danych, a nie szukania odpowiedzi na konkretnie pytania, np. Czy można zauważyć segmentację wśród klientów firmy? Czy można zauważyć segmentację wśród produktów firmy?

6

DATA MINING – nr przedmiotu 223120-0997 Zakład Metod Statystycznych i Analiz Biznesowych ISiD SGH

Dwa nurty data mining Data mining

Modelowanie predykcyjne • Drzewa decyzyjne • Regresja • Sieci neuronowe • Naiwny klasyfikator bayesowski • Metoda k-najbliższych sąsiadów

Rozpoznawanie wzorców • Statystyka opisowa • Analiza skupień • Sieci samoorganizujące się • Analiza asocjacji i sekwencji

DATA MINING – nr przedmiotu 223120-0997 Zakład Metod Statystycznych i Analiz Biznesowych ISiD SGH

Przykłady Przykład 1 Problem: Kierownictwo banku zauważa nasilenie problemu niewypłacalności klientów, którym udzielono kredytu. Cel: Minimalizacja strat w przyszłości. Zadanie: Konstrukcja reguły decyzyjnej, pozwalającej ocenić ryzyko niespłacenia kredytu przez pojedynczego klienta (tzw. credit scoring). Przykład 2 Problem: Kierownictwo firmy telekomunikacyjnej zauważa nasilenie zjawiska rezygnacji klientów z jej usług. Cel: Minimalizacja strat w przyszłości. Zadanie: Konstrukcja reguły decyzyjnej, pozwalającej na identyfikację klientów charakteryzujących się dużym prawdopodobieństwem rezygnacji z usług firmy (tzw. churn). 8

DATA MINING – nr przedmiotu 223120-0997 Zakład Metod Statystycznych i Analiz Biznesowych ISiD SGH

Konstrukcja reguły decyzyjnej Dane historyczne

Model prognostyczny

Klienci „ryzykowni”

• Model budujemy bazując na danych historycznych dotyczących tylko jednego rodzaju produktu będącego przedmiotem naszego zainteresowania, np. tylko kredyty hipoteczne. • Korzystając z metod data mining dla każdego klienta wyznaczamy prawdopodobieństwo (niespłacenia kredytu, odejścia). • Wybieramy tzw. graniczną wartość prawdopodobieństwa, w oparciu o którą podejmujemy decyzję co do konkretnego klienta. 9

DATA MINING – nr przedmiotu 223120-0997 Zakład Metod Statystycznych i Analiz Biznesowych ISiD SGH

The Cross-Industry Standard Process for Data Mining (CRISP-DM) Sześć faz CRISP-DM: 1. Zrozumienie problemu biznesowego (Business understanding phase) – określenie celów projektu, wyrażenie ich w języku problemów data mining, określenie wstępnej strategii osiągnięcia tych celów. 2. Poznanie danych (Data understanding phase) – zbieranie danych, wykorzystanie prostych metod analizy danych do zapoznania się z danymi, ocena jakości danych, ewentualne wstępne określenie podzbiorów danych, które mogą zawierać informacje prowadzące do ważnych prawidłowości. 3. Przygotowanie danych (Data preparation phase) – przygotowanie wstępnego oraz ostatecznego zbioru danych, wybór zmiennych i obiektów do analizy, ewentualna analiza niektórych zmiennych, czyszczenie danych. 10

DATA MINING – nr przedmiotu 223120-0997 Zakład Metod Statystycznych i Analiz Biznesowych ISiD SGH

The Cross-Industry Standard Process for Data Mining (CRISP-DM) 4. Modelowanie (Modeling phase) – wybór technik modelowania, budowa modelu. 5. Ocena (Evaluation phase) – ocena zbudowanych modeli pod względem poziomu dopasowania, efektywności, interpretowalności, użyteczności w realizacji celów projektu; określenie elementów, których znaczenie nie zostało uwzględnione, wstępne określenie możliwości wdrożenia wyników w praktyce. 6. Wdrożenie (Deployment phase) – przygotowanie raportu, wykorzystanie modeli, zastosowanie modelu do podobnego zagadnienia lub innych obiektów, ocena efektów biznesowych.

11

DATA MINING – nr przedmiotu 223120-0997 Zakład Metod Statystycznych i Analiz Biznesowych ISiD SGH

The Cross-Industry Standard Process for Data Mining (CRISP-DM)

Business/Research understanding phase

Deployment phase

Evaluation phase

Data understanding phase

Data preparation phase

Modeling phase

12

DATA MINING – nr przedmiotu 223120-0997 Zakład Metod Statystycznych i Analiz Biznesowych ISiD SGH

CRISP-DM - przykład Przykład 3 (D.T. Larose, Discovering Knowledge in Data: An Introduction to Data Mining, Wiley, New York 2005 )

Przewidywanie bankructwa firm za pomocą drzew decyzyjnych zgodnie ze standardem postępowania CRISP-DM. 1. Zrozumienie problemu biznesowego Ekonomiczny kryzys we wschodniej Azji skutkował dużą liczbą bankructw przedsiębiorstw w tym regionie jak również na całym świecie. Grupa uczonych z kilku uniwersytetów postawiła sobie za cel zbudowanie modeli mogących służyć do przewidywania bankructwa firm. Kluczowym aspektem była przystępna interpretowalności otrzymanych wyników, ponieważ prognoza bankructwa musi być poparta silnym i logicznym uzasadnieniem. W tym przypadku model prognostyczny typu czarna skrzynka byłby niewystarczający. W związku z tym jako metodę analizy wybrano drzewa decyzyjne. 13

DATA MINING – nr przedmiotu 223120-0997 Zakład Metod Statystycznych i Analiz Biznesowych ISiD SGH

CRISP-DM - przykład 2. Analiza danych Zbiór danych zawierał dane dla dwóch grup firm koreańskich: firm, które zbankrutowały w okresie dobrej koniunktury lat 1991-1995 oraz firm, które zbankrutowały w warunkach kryzysu ekonomicznego 1997-1998. Wybrano 29 firm głównie z sektora przedsiębiorstw produkcyjnych. Dane finansowe zostały zebrane z koreańskiej giełdy i zweryfikowane przez dwa banki. 3. Przygotowanie danych Na podstawie literatury badacze wskazali na 56 potencjalnych wskaźników mierzących czynniki wpływające na bankructwo firmy, 16 z nich pominięto ze względu na ich nadmiarowość. Pozostawiono zatem 40 zmiennych opisujących min. rozwój firmy, dochodowość, zabezpieczenia/zadłużenia, aktywność/efektywność i produktywność. 14

DATA MINING – nr przedmiotu 223120-0997 Zakład Metod Statystycznych i Analiz Biznesowych ISiD SGH

CRISP-DM – przykład c.d. 4. Modelowanie Utworzono dwa modele drzew decyzyjnych osobno dla firm, które zbankrutowały w okresie „stabilnym” i kryzysu. Otrzymano, że przepływ pieniędzy i produktywność kapitału są istotne niezależnie od warunków ekonomicznych. Tylko pierwszy wskaźnik jest znany w teorii bankructw firm, zatem drugi wymaga dodatkowej weryfikacji. 5. Ocena Otrzymany rezultat dotyczący produktywności kapitału został potwierdzony przez ekspertów. W celu weryfikacji, że model jest możliwy do wykorzystania sprawdzono go na kontrolnej próbie firm, których dane nie były wykorzystane do budowy modelu i które nie zbankrutowały. 6. Wdrożenie Ten model nie został wdrożony – decyzja o zastosowaniu modelu zależy od jego użytkownika. 15

DATA MINING – nr przedmiotu 223120-0997 Zakład Metod Statystycznych i Analiz Biznesowych ISiD SGH

Dane w procesach data mining • Źródła i rodzaje danych • Jakość danych • Braki danych • Ilość danych – wybór zmiennych i rekordów

16

DATA MINING – nr przedmiotu 223120-0997 Zakład Metod Statystycznych i Analiz Biznesowych ISiD SGH

Źródła i rodzaje danych • Urzędy statystyczne – dane ze spisów powszechnych. • Banki – dane osobowe klientów, transakcje, dostępne debety, salda, wielkości kredytów. • Firmy telekomunikacyjne – dane osobowe klientów, wielkości rachunków, godziny rozmów, czas trwania rozmów, wybrane numery. • Firmy obsługujące karty kredytowe – data i czas transakcji, kwoty obciążenia. • Firmy kurierskie – kody pocztowe, czas przyjęcia przesyłki. 17

DATA MINING – nr przedmiotu 223120-0997 Zakład Metod Statystycznych i Analiz Biznesowych ISiD SGH

Jakość danych Dane: • powinny być indywidualne - jeden wiersz odpowiada jednemu obiektowi należącemu do badanej populacji • powinny być w postaci płaskiej tabeli lub widoku • powinny być możliwie najczystsze • powinny być najnowsze dostępne z odpowiednio długiego okresu Kolumny (zmienne): • dzielimy na zmienne wejściowe (objaśniające) i zmienne celu (objaśniane) – modele predykcyjne • powinny zawierać informacje istotne dla problemu, który rozważamy • zawierające taką samą wartość dla prawie wszystkich obserwacji (rekordów) powinny być usunięte • objaśniane powinny być jednoznacznie określone (usuwamy kolumny do nich synonimiczne), nie powinny zawierać braków danych 18

DATA MINING – nr przedmiotu 223120-0997 Zakład Metod Statystycznych i Analiz Biznesowych ISiD SGH

Jakość danych Dane do procesów data mining są najczęściej olbrzymich rozmiarów i mogą pochodzić z różnych źródeł. Dlatego istotne jest, aby dane były odpowiedniej jakości, były zgodne i w miarę aktualne. Podstawowe problemy związane z danymi dotyczą: • braków danych (puste wartości – niosą ze sobą pewną informację) • niejednoznaczności formatu danych (w każdej kolumnie musi istnieć jeden, unikalny format zapisu danych – formaty w SAS 4GL) • wartości nieprawidłowych • obserwacji odstających i mających duży wpływ na jakość modelu Poprawy jakości danych dokonujemy w procesie ich czyszczenia. 19

DATA MINING – nr przedmiotu 223120-0997 Zakład Metod Statystycznych i Analiz Biznesowych ISiD SGH

Braki danych Występowanie braków stanowi problem dla wszystkich metod modelowania z wyjątkiem drzew decyzyjnych. Proces uzupełniania braków danych należy rozpocząć od sprawdzenia, ile zmiennych i jakie zmienne zawierają niekompletne informacje. Możliwe przyczyny braków danych: • utrata informacji w trakcie jej rejestrowania lub przechowywania danych; • usunięcie informacji wynikające z jej błędnego zarejestrowania; • chęć zatajenia przez respondenta jakieś informacji; • odmowa udzielenia odpowiedzi na zdaniem respondenta „wrażliwe” pytanie; • … 20

DATA MINING – nr przedmiotu 223120-0997 Zakład Metod Statystycznych i Analiz Biznesowych ISiD SGH

Braki danych Braki danych (non-response) Braki udziału

Braki odpowiedzi

(unit non-response)

(item non-response)

Przyczyny błędu niedostępności: • Losowe – dotyczą niezamierzonych, przypadkowych okoliczności wpływających na to, że respondent był nieosiągalny, np. błędne dane adresowe. • Systematyczne – dotyczą niedostępności respondenta wynikających lub skorelowanych z cechami respondenta, np. niechęć do udzielania informacji, brak czasu. 21

DATA MINING – nr przedmiotu 223120-0997 Zakład Metod Statystycznych i Analiz Biznesowych ISiD SGH

Braki danych Rodzaje braków danych: • Brak całkowicie losowy (MCAR – missing completely at random). Kategoria opisuje sytuację, w której prawdopodobieństwo wystąpienia braku wartości zmiennej w rekordzie nie zależy ani od zaobserwowanych danych (wartości innych zmiennych), ani od brakującej wartości. • Brak losowy (MAR - missing at random). Kategoria opisuje sytuację, w której prawdopodobieństwo wystąpienia braku w rekordzie może zależeć od obserwowanych danych (wartości innych zmiennych), ale nie od brakującej wartości. • Brak o charakterze nielosowym (NMAR - not missing at random). Kategoria opisuje sytuacji w której prawdopodobieństwo wystąpienia braku w danej zmiennej w rekordzie może zależeć od brakującej wartości jak również i innych wartości. 22

DATA MINING – nr przedmiotu 223120-0997 Zakład Metod Statystycznych i Analiz Biznesowych ISiD SGH

Wstępne postępowanie w przypadku występowania braków danych • Modyfikacja procedury pozyskiwania danych (np. działania związane z zwiększeniem efektywności ankieterów) • Dodatkowe badania (ponowna próba dotarcia do respondenta) • Próby rezerwowe (zastępowanie jednostek niedostępnych, jednostkami z próby rezerwowej) • Informacje z danych zewnętrznych (możliwość wykorzystania ich przy imputacji, np. do ustalenia rozkładu zmiennej z brakami danych) 23

DATA MINING – nr przedmiotu 223120-0997 Zakład Metod Statystycznych i Analiz Biznesowych ISiD SGH

Postępowanie w przypadku braków danych Przypadek braków całkowicie losowych: • Zakładamy, że rozkład wartości brakujących i kompletnych jest taki sam. • W przypadku tylko takiego rodzaju braków danych możliwe jest usuwanie rekordów, w innym przypadku takie działanie może wpłynąć na klasyfikację. Przypadek braków danych o charakterze losowym: • Rozkład wartości brakujących jest inny niż kompletnych. • Możemy przewidzieć wartości brakujące na podstawie pełnych danych. • Możliwe jest uzupełnianie brakujących wartości.

24

DATA MINING – nr przedmiotu 223120-0997 Zakład Metod Statystycznych i Analiz Biznesowych ISiD SGH

Metody postępowania z brakami danych Metody sekwencyjne (metody wstępnego przetwarzania danych) Metody te polegają na wyeliminowaniu braków w danych, jeszcze przed rozpoczęciem właściwego procesu wykorzystania danych np. przed rozpoczęciem klasyfikacji. Metody równoległe W metodach tych braki danych są brane pod uwagę w trakcie właściwego procesu wykorzystania danych dla pozyskiwania wiedzy, czyli np. w trakcie budowy modelu klasyfikacyjnego (np. algorytmy CART - osobne zasady przetwarzania braków danych).

25

DATA MINING – nr przedmiotu 223120-0997 Zakład Metod Statystycznych i Analiz Biznesowych ISiD SGH

Braki danych – metody uzupełniania Najczęściej stosowane metody sekwencyjne uzupełniania braków danych: • usunięcie rekordów zawierających braki danych; • zastępowanie stałą wartością; • zastępowanie średnią, medianą (zmienne ciągłe) lub najczęściej występującą wartością (zmienne dyskretne) – powoduje zmiany w rozkładzie, niezalecane w przypadku zmiennych o dużym zróżnicowaniu; • zastępowanie wartością wylosowaną z rozkładu danej zmiennej – umożliwia zachowanie rozkładu zmiennej; • uzupełnianie na podstawie wartości innych zmiennych dla określonej obserwacji (wymaga budowy modelu drzewa decyzyjnego na podstawie pozostałych wartości zmiennych w rekordzie).

Metoda wielokrotnego wstawiania – tworzenie wielu kopi zbioru, w każdej z nich braki zastępowane są różnymi wartościami. Modelowanie na każdym zbiorze – wybór klasyfikatora. Brakujące dane można też próbować uzupełnić przy użyciu tzw. wiedzy eksperckiej, np. biznesowej. 26

DATA MINING – nr przedmiotu 223120-0997 Zakład Metod Statystycznych i Analiz Biznesowych ISiD SGH

Braki danych - podsumowanie • W klasyfikacji na ogół lepsze rezultaty daje uzupełnianie braków danych, niż ich eliminacja. • Usuwanie rekordów stanowi rozwiązanie tylko w niektórych przypadkach. • Metoda uzupełniania braków danych powinna być dobrana do rodzaju modelowania i analizowanego problemu. • Uzupełnianie braków danych stanowi wstępne przygotowanie zbioru danych do analizy.  Nie ma jednej uniwersalnej metody uzupełniania braków danych.  Wszystkie obarczone są ryzykiem popełnienia błędu. 27

DATA MINING – nr przedmiotu 223120-0997 Zakład Metod Statystycznych i Analiz Biznesowych ISiD SGH

Ilość danych • Proces data mining wymaga danych historycznych z odpowiednio długiego okresu czasu. • Dostępna ogromna ilość danych – setki tysięcy wierszy (obserwacji) oraz setki, a nawet tysiące kolumn (zmiennych). Zbyt wiele zmiennych

Zbyt wiele obserwacji

preselekcja zmiennych, agregacje, kombinacje zmiennych, transformacje liniowe i nieliniowe zbioru danych próbkowanie (wybór losowy), poszukiwanie rekordów, które są szczególnie ważne z punktu widzenia, np. konstrukcji granic decyzyjnych przy klasyfikacji

28

DATA MINING – nr przedmiotu 223120-0997 Zakład Metod Statystycznych i Analiz Biznesowych ISiD SGH

Preselekcja zmiennych Wybrane metody wstępnej selekcji zmiennych: Metody statystyczne: • Test niezależności chi-kwadrat (współczynnik zbieżności V-Cramera) • Współczynniki korelacji (liniowej Pearsona, rangowej Spearmana/Kendalla) Metody modelowania: • Drzewa decyzyjne • Regresja (dołączania, eliminacji, krokowa) Inne metody: • Analiza głównych składowych (PCA - principal component analysis) • Grupowanie zmiennych  W modelu powinny się znaleźć zmienne objaśniające silnie skorelowane ze zmienną celu oraz słabo skorelowane między sobą.  Prostota modelu - zasada brzytwy Ockhama.

29

DATA MINING – nr przedmiotu 223120-0997 Zakład Metod Statystycznych i Analiz Biznesowych ISiD SGH

Selekcja rekordów • Wybrany podzbiór danych powinien dać możliwość uzyskania takiego samego celu, jaki można by osiągnąć przy użyciu pełnego zbioru danych. • Idealnym wynikiem selekcji powinien być podzbiór, na którym jakość zbudowanego modelu będzie identyczna jak na całym zbiorze. • Idealny minimalny podzbiór powinien być niezależny od modeli na nim budowanych. • Selekcja rekordów ma na celu: – poprawę wydajności modelowani...