Title | Data Mining untuk Klien Bank Telemarketing Menggunakan Naïve Bayes Berbasis Feature Selection Dengan Correlation Based |
---|---|
Author | Yoga Religia |
Pages | 36 |
File Size | 1.4 MB |
File Type | |
Total Downloads | 82 |
Total Views | 119 |
PROPOSAL PENELITIAN DATA MINING UNTUK KLIEN BANK TELEMARKETING MENGGUNAKAN NAÏVE BAYES BERBASIS FEATURE SELECTION DENGAN CORRELATION-BASED Oleh: YOGA RELIGIA i DAFTAR ISI DAFTAR ISI .........................................................................................................................
Accelerat ing t he world's research.
Data Mining untuk Klien Bank Telemarketing Menggunakan Naïve Bayes Berbasis Feature Selection Dengan Correlation... Yoga Religia
Related papers
Download a PDF Pack of t he best relat ed papers
Penerapan Resampling dan Bagging Berbasis Naϊve Bayes unt uk Prediksi Churn Pelanggan Yuliant i Yuliant i
IMPLEMENTASI ALGORIT MA NAÏVE BAYES UNT UK MEMPREDIKSI LAMA MASA ST UDI DAN PREDIKAT K… Febry Eka Purwiant ono ANALISIS SENT IMEN REVIEW PRODUK KOSMET IK MENGGUNAKAN ALGORIT MA SUPPORT VECT OR MA… Dinar Krist iyant i, Dinar Ajeng
PROPOSAL PENELITIAN
DATA MINING UNTUK KLIEN BANK TELEMARKETING MENGGUNAKAN NAÏVE BAYES BERBASIS FEATURE SELECTION DENGAN CORRELATION-BASED
Oleh: YOGA RELIGIA
i
DAFTAR ISI
DAFTAR ISI ....................................................................................................................................... ii DAFTAR GAMBAR...........................................................................................................................iii DAFTAR TABEL ...............................................................................................................................iv BAB I PENDAHULUAN ................................................................................................................... 1 1.1.
Latar Belakang .................................................................................................................... 1
1.2.
Rumusan Masalah............................................................................................................... 3
1.3.
Batasan Penelitian ............................................................................................................... 3
1.4.
Tujuan Penelitian ................................................................................................................ 3
1.5.
Manfaat Penelitian .............................................................................................................. 4
BAB II TINJAUAN PUSTAKA ......................................................................................................... 5 2.1. Literatur Review ...................................................................................................................... 5 2.2. Machine Learning .................................................................................................................. 11 2.3. Correlation-Based Feature Selection .................................................................................... 13 2.4. Naïve Bayes............................................................................................................................. 15 2.5.
Klasifikasi / Classification ................................................................................................ 16
2.6.
Kerangka Pemikiran......................................................................................................... 18
BAB III METODE PENELITIAN ................................................................................................ 20 3.1. Instrumental Data .................................................................................................................. 20 3.2. Jenis Data ............................................................................................................................... 20 3.3. Metode Pengumpulan Data ................................................................................................... 22 3.4. Metode yang diusulkan .......................................................................................................... 22 3.5. Contoh Kasus ......................................................................................................................... 24 3.6. Evaluasi dan Validasi............................................................................................................. 28 DAFTAR PUSTAKA ........................................................................................................................ 30
ii
DAFTAR GAMBAR Gambar 2.1. Kerangka Pemikiran ............................................................................................ 15 Gambar 3.1. Diagram Split Validation ................................................................................... 18 Gambar 3.2. Diagram Split Validation dengan Correlation-based .......................................... 18
iii
DAFTAR TABEL Tabel 2.1. Hasil Eksperimen Hai Nguyen ................................................................................. 4 Tabel 2.2. Hasil Eksperimen Asha Gowda Karegowda ............................................................. 5 Tabel 2.3. Hasil Eksperimen Diana Tri Wahyuni ...................................................................... 5 Tabel 2.4. Hasil Eksperimen Jia Wu ......................................................................................... 6 Tabel 2.5. Rangkuman Penelitian Sebelumnya ......................................................................... 7 Tabel 2.6. Contoh Tabel Definisi Data .................................................................................... 13 Tabel 3.1 Pembagian Data ....................................................................................................... 19 Tabel 3.2. Contoh Data Kasus ................................................................................................. 19 Tabel 3.3. Contoh Kasus ......................................................................................................... 20 Tabel 3.4 Evaluasai Pengujian ................................................................................................. 23
iv
BAB I PENDAHULUAN
1.1. Latar Belakang Machine learning adalah ilmu yang mempelajari tentang algoritma computer yang bertujuan untuk meningkatkan kecerdasan secara otomatis berdasarkan pengalaman. Belajar menyaring secara otomatis kebutuhan pengguna dari aplikasi yang bervariasi pada data mining yang memanfaatkan data set yang besar membutuhkan adanya machine learning, sehingga machine learning saat ini menjadi pertanyaan penelitian yang penting didalam kecerdasan buatan [1]. Bagi aplikasi yang memiliki ukuran data set yang sangat besar seperti machine learning, pemilihan fitur pada data set akan memiliki dampak yang besar pada kinerja dan kualitas pembelajaran [2]. Dalam merekrut sebanyak mungkin nasabah dapat dilihat dari berbagai upaya yang dilakukan oleh bank dalam kegiatan pemasarannya. Dahulu metode pemasaran usaha kepada calon klien (konsumen) masih menggunakan cara bertatap muka secara langsung. Dengan berkembangnya teknologi metode tersebut mulai ditinggalkan dan dapat digantikan menggunakan media komunikasi elektronik seperti telepon, fax ataupun media lainnya. Kegiatan dengan memanfaatkan media komunikasi elektronik untuk memasarkan produk yang dimiliki tersebut dinamakan telemarketing.
Dengan
memanfaatkan
telemarketing
pihak
bank
dapat
memperkenalkan produk yang dimiliki ke pada klien dengan cepat dan waktu yang lebih cepat. Peranan telemarketing. Penerapatn telemarketing oleh pihak bank, dapat membantu pihak bank dalam melakukan interaksi dengan klient diseluruh wilayah pemasarannya [3]. Dalam ilmu komputer klasifikasi merupakan teknik yang digunakan untuk menentukan item dari dataset kedalam suatu kategori atau kelas. Tujuan dari klasifikasi yaitu sebagai sarana mencari pola dengan menganalisis sekumpulan dataset yang yang mendeskripsikan dan membedakan class data. Sehingga dari class yang diperoleh dapat digunakan untuk memprediksi data yang class-nya belum diketahui [4]. Namun kerap kali dibutuhkan resource yang cukup besar untuk 1
melakukan klasifikasi. Hal ini dapat disebabkan karena data yang akan dilakukan klasifikasi memiliki banyak variabel yang irrelevant, dimensionalitas yang tinggi, ataupun variabel yang redundant. Pada proses klasifikasi, dataset akan dibagi menjadi 2 bagian, yaitu data training dan data testing. Akan tetapi untuk jumlah data dan variabel yang sangat banyak, akan membutuhkan pembuatan model klasifikasi dan dataset yang kompleks. Sehingga sebelum dilakukannya pembagian data ke dalam data training dan data testing diperlukan pemilihan terhadap variabel input yang akan digunakan untuk memperoleh pola yang lebih baik.
Sehingga diperlukan tahapan pre-
prosessing sebelum melakukan proses klasifikasi. Terdapat banyak jenis tahapan preprosesing, salah satunya yaitu Variabel Selection. Variabel Selection merupakan proses mengidentifikasi dan penghapusan variabel yang mengalami redudant atau bersifat irrelevant [5]. Dalam melakukan seleksi variabel, dapat menggunakan metode correlation-based feature selection. Metode correlation-based feature selection melakukan penghitungan dan pembandingan tingkat korelasi antara masing-masing variabel dengan variabel class-nya dan antara variabel dengan variabel lainnya. Naïve bayes merupakan algoritma data mining yang dapat digunakan untuk melakukan klasifikasi. Naïve bayes merupakan algoritma data mining yang menerapkan metode probabilitas dan statistik dengan menggunakan probabilitas di masa sebelumnya untuk memprediksi probabilitas dimasa yang akan datang. Naïve bayes pernah diterapakan untuk mengklasifikasikan data berdimensi tinggi. Data berdimensi tinggi yang dimaksud adalah data yang memiliki proporsi atribut yang tidak relevan. Percobaan dilakukan dengan menggunakan document corpora dan gene micro-array datasets yang menunjukkan efisiensi yang sangat memuaskan dengan presentase sekitar 98% [6]. Berdasarkan penelitian dari kasus-kasus sebelumnya, penelitian ini akan memanfaatkan variable selection menggunakan metode correlation-based untuk klasifikasi klien bank telemarketing menggunakan algoritma Naïve bayes. Dataset yang digunakan merupakan dataset global yang diambil dari UCI data set berupa dataset Bank Marketing yang memiliki 17 atribut real dan 45211 data [7].
2
1.2. Rumusan Masalah Berdasarkan latar belakang yang sudah disebukan sebelumnya, dalam penelitian ini akan dirumuskan masalah sebagai berikut: 1. Belum dimanfaatkannya pemilihan variabel menggunakan metode correlation-base untuk meningkatkan performance klasifikasi pada data “klien bank telemarketing” menggunakan algoritma Naïve Bayes.
1.3. Batasan Penelitian Dari rumusan masalah yang sudah disampaikan maka dibuatlah batasan masalah agar penelitian yang dilakukan tidak melebar dari permasalahan yang dihadapi. Adapun batasan masalah dalam penelitian ini yaitu: 1. Klasifikasi yang dilakukan akan menggunakan algoritma naïve bayes. 2. Pemilihan variabel yang digunakan akan menggunakan metode correlation-base feature selection. 3. Data yang akan digunakan untuk klasifikasi adalah data Bank Marketing yang diambil dari UCI Dataset.
1.4. Tujuan Penelitian Berdasarkan batasan masalah yang ada, terdapat beberapa tujuan yang ingin dicapai. Adapun tujuan dari penelitian ini adalah: 1. Menggunakan algoritma naïve bayes dengan pemilihan variabel menggunakan correlation-based untuk mengklasifikasi data-set Bank Marketing. 2. Membandingkan
hasil
performnce
dari
klasifikasi
klien
bank
telemarketing yang menggunakan algoritma naïve bayes saja dengan penggunaan algoritma naïve bayes yang disertai pemilihan variabel menggunakan correlation-based.
3
1.5. Manfaat Penelitian Dengan adanya penelitian ini yang menggunakan algoritma Naive Bayes untuk mengklasifikasikan klien bank telemarketing dengan correlation-based sebagai feature selection diharapkan dapat memberikan gambaran analisis mengenai hasil akurasi dari klasifikasi klien bank telemarketing yang menggunakan algoritma naïve bayes saja dengan penggunaan algoritma naïve bayes yang disertai pemilihan variabel menggunakan correlation-based feature selection. Dengan adanya hasil yang diperoleh dapat dijadikan sebagai metode acuan dalam penelitian selanjutnya.
4
BAB II TINJAUAN PUSTAKA
2.1. Literatur Review Hai Nguyen, Katrin Franke dan Slobodan Petrovi´c pada tahun 2010 dalam Improving Effectiveness of Intrusion Detection by Correlation Feature Selection, telah melakukan penelitian tentang pentingnya seleksi fitur dalam efektifitas intrusion detection system (IDS) [8]. Tujuan dari penelitian tersebut adalah meningkatkan efektifitas IDS secara keseluruhan dengan pengurangan jumlah fitur yang relevan tanpa memberikan efek negatif pada akurasi klasifikasi menggunakan optimasi correlation-based feature selection (CFS). Pengujian dilakukan dengan menggunakan algoritma C4.5 dan BayesNet machines dengan data KDD CUP'99 IDS. Hasil percobaan menunjukkan bahwa metode CFS mempertahankan akurasi klasifikasi atau bahkan dapat meningkatkan kinerja algoritma menjadi lebih baik. Tabel 2.1. Hasil Eksperimen Hai Nguyen, Katrin Franke dan Slobodan Petrovi´c C4.5 Dataset
KDD99-
BayesNet
Penelitian
Penambahan
Penelitian
Penambahan
sebelumnya
CFS
sebelumnya
CFS
96.65%
98.89%
99.09%
98.87%
99.71%
99.70%
97.65%
97.63%
99.97%
99.96%
99.97%
99.95%
99.01%
99.11%
98.95%
98.81%
98.84%
99.41%
98.91%
98.82%
normal&DoS KDD99normal&Probe KDD99normal&U2R KDD99normal&R2L Rata-rata
Asha Gowda Karegowda, A. S. Manjunath dan M.A. Jayaram pada tahun 2010 dalam Comparative Study of Attribute Selection Using Gain Ratio and 5
Correlation-based Feature Selection, melakukan penelitian tentang seleksi fitur menggunakan 2 pendekatan yaitu Gain ratio dan Correlation-based Feature Selection [9]. Tujuannya adalah untuk membandingkan efektifitas penggunaan jumlah atribut yang kaitannya dengan hasil akurasi. Pengujian dilakukan dengan menggunakan algoritma C4.5 dengan data Pima Indians Diabetes Database yang memiliki 9 atribut (8 atribut input dan 1 atribut output). Hasil pengujian menunjukkan hasil pengurangan atribut dengan seleksi fitur Gain ratio dan Correlation-based Feature Selection dapat meningkatkan nilai akurasi dari klasifikasi yang dilakukan. Tabel 2.2. Hasil Eksperimen Asha Gowda Karegowda, A. S. Manjunath dan M.A.Jayaram Atribut input
Akurasi klasifikasi
8
81.20%
5
86.46%
4
88.00%
Diana Tri Wahyuni, T. Sutojo, dan Ardytha Luthfiarta pada tahun 2014 dalam Prediksi Hasil Pemilu Legislatif Dki Jakarta Menggunakan Naïve Bayes Dengan Algoritma Genetika Sebagai Fitur Seleksi, telah melakukan penelitian tentang prediksi hasil pemilihan umum dengan perhitungan cepat (quickcount) menggunakan algoritma Naive bayes yang diperkuat dengan menggunakan algoritma genetika sebagai seleksi fitur [10]. Tujuan dari penelitian tersebut adalah memanfaatkan algoritma genetika untuk membantu Naive bayes dalam menentukan atribut-atribut mana yang dapat digunakan untuk meningkatkan nilai akurasi. Setelah dilakukan pengujian diperoleh hasil bahwa penggunaan algoritma Naive bayes yang diperkuat dengan algoritma genetika sebagai seleksi fitur memiliki akurasi lebih tinggi dibandingkan hanya menggunakan algortma naive bayes saja. Tabel 2.3. Hasil Eksperimen Diana Tri Wahyuni, T. Sutojo, dan Ardytha Luthfiarta
6
Algoritma
Akurasi
AUC
Naïve bayes
92.28%
0.981
Naïve bayes dan algoritma Genetika
97.84%
0.994
Jia Wu, Shirui Pan, Zhihua Cai, Xingquan Zhu dan Chengqi Zhang pada tahun 2014 dalam Dual Instance and Attribute Weighting for Naive Bayes Classification, membahas tentang Nive bayes sebagai algoritma yang populer untuk klasifikasi dalam data mining dan machine learning membutuhkan teknik atau metode untuk menutupi kelemahan dari Naive bayes untuk memperoleh hasil yang lebih baik [11]. Penelitian tersebut bertujuan untuk menambahkan metode dual instance dan pembobotan atribut sebagai metode yang akan digunakan untuk mendukung Naive bayes dalam melakukan klasifikasi yang mana metode tersebut dapat disebut dengan DWNB (Dual Instance and Attribute Weighting for Naive Bayes). Dalam penggunaan DWNB memungkinkan untuk mengatasi kondisi independence assumption pada akurasi klasifikasi. percobaan dan perbandingan dengan menggunakan 36 patokan dataset menunjukkan bahwa DWNB lebuh baik dibandingkan Naive bayes. Tabel 2.4. Hasil Eksperimen Jia Wu, Shirui Pan, Zhihua Cai, Xingquan Zhu dan Chengqi Zhang Akurasi
No. Dataset
NB
DWNB
1
Anneal
94.32
91.15
2
Anneal.ORIG
88.16
89.92
3
Audiology
71.40
79.15
4
Autos
63.97
75.26
5
Balance-scale
91.44
89.90
6
Breast-cancer
72.94
72.17
7
7
Breast-w
97.30
97.50
8
Colic
78.86
83.67
9
Colic.ORIG
74.21
76.19
10
Credit-a
84.74
86.23
11
Credit-g
75.93
76.79
12
Diabete
75.68
76.26
13
Glass
57.69
60.16
14
Heart-c
83.44
82.32
15
Heart-h
83.64
83.51
16
Heart-statlog
83.78
83.26
17
Hepatitis
84.06
84.28
18
Hypothyroid
92.79
93.63
19
Ionosphere
90.86
92.03
20
Iris
94.33
95.27
21
Kr-vs-kp
87.79
94.75
22
Labor
96.70
89.17
23
Letter
65.80
67.63
24
Lymph
85.97
81.90
25
Mushroom
93.58
99.54
26
Primary-tumor
47.20
48.14
27
Segment
89.03
90.89
28
Sick
96.78
97.30
29
Sonar
76.35
75.33
30
Soybean
92.20
94.30
31
Splice
95.42
96.12
32
Vehicle
61.03
60.97
33
Vote
90.21
94.83
34
Vawel
66.09
66.71
35
Waveform-5000
79.80
80.24
36
Zoo
94.37
93.61
8
Rata-rata
82.16
83.34
Dari beberapa penelitian yang sudah disebutkan sebelumnya maka dapat dibuat rangkuman yang dapat dilihat pada tabel 2.5. Tabel 2.5. Rangkuman Penelitian Sebel...