Data Mining untuk Klien Bank Telemarketing Menggunakan Naïve Bayes Berbasis Feature Selection Dengan Correlation Based PDF

Title	Data Mining untuk Klien Bank Telemarketing Menggunakan Naïve Bayes Berbasis Feature Selection Dengan Correlation Based
Author	Yoga Religia
Pages	36
File Size	1.4 MB
File Type	PDF
Total Downloads	82
Total Views	119

Preview

CLICK TO PREVIEW PDF

Summary

PROPOSAL PENELITIAN DATA MINING UNTUK KLIEN BANK TELEMARKETING MENGGUNAKAN NAÏVE BAYES BERBASIS FEATURE SELECTION DENGAN CORRELATION-BASED Oleh: YOGA RELIGIA i DAFTAR ISI DAFTAR ISI .........................................................................................................................

Description

Accelerat ing t he world's research.

Data Mining untuk Klien Bank Telemarketing Menggunakan Naïve Bayes Berbasis Feature Selection Dengan Correlation... Yoga Religia

Related papers

Download a PDF Pack of t he best relat ed papers 

Penerapan Resampling dan Bagging Berbasis Naϊve Bayes unt uk Prediksi Churn Pelanggan Yuliant i Yuliant i

IMPLEMENTASI ALGORIT MA NAÏVE BAYES UNT UK MEMPREDIKSI LAMA MASA ST UDI DAN PREDIKAT K… Febry Eka Purwiant ono ANALISIS SENT IMEN REVIEW PRODUK KOSMET IK MENGGUNAKAN ALGORIT MA SUPPORT VECT OR MA… Dinar Krist iyant i, Dinar Ajeng

PROPOSAL PENELITIAN

DATA MINING UNTUK KLIEN BANK TELEMARKETING MENGGUNAKAN NAÏVE BAYES BERBASIS FEATURE SELECTION DENGAN CORRELATION-BASED

Oleh: YOGA RELIGIA

i

DAFTAR ISI

DAFTAR ISI ....................................................................................................................................... ii DAFTAR GAMBAR...........................................................................................................................iii DAFTAR TABEL ...............................................................................................................................iv BAB I PENDAHULUAN ................................................................................................................... 1 1.1.

Latar Belakang .................................................................................................................... 1

1.2.

Rumusan Masalah............................................................................................................... 3

1.3.

Batasan Penelitian ............................................................................................................... 3

1.4.

Tujuan Penelitian ................................................................................................................ 3

1.5.

Manfaat Penelitian .............................................................................................................. 4

BAB II TINJAUAN PUSTAKA ......................................................................................................... 5 2.1. Literatur Review ...................................................................................................................... 5 2.2. Machine Learning .................................................................................................................. 11 2.3. Correlation-Based Feature Selection .................................................................................... 13 2.4. Naïve Bayes............................................................................................................................. 15 2.5.

Klasifikasi / Classification ................................................................................................ 16

2.6.

Kerangka Pemikiran......................................................................................................... 18

BAB III METODE PENELITIAN ................................................................................................ 20 3.1. Instrumental Data .................................................................................................................. 20 3.2. Jenis Data ............................................................................................................................... 20 3.3. Metode Pengumpulan Data ................................................................................................... 22 3.4. Metode yang diusulkan .......................................................................................................... 22 3.5. Contoh Kasus ......................................................................................................................... 24 3.6. Evaluasi dan Validasi............................................................................................................. 28 DAFTAR PUSTAKA ........................................................................................................................ 30

ii

DAFTAR GAMBAR Gambar 2.1. Kerangka Pemikiran ............................................................................................ 15 Gambar 3.1. Diagram Split Validation ................................................................................... 18 Gambar 3.2. Diagram Split Validation dengan Correlation-based .......................................... 18

iii

DAFTAR TABEL Tabel 2.1. Hasil Eksperimen Hai Nguyen ................................................................................. 4 Tabel 2.2. Hasil Eksperimen Asha Gowda Karegowda ............................................................. 5 Tabel 2.3. Hasil Eksperimen Diana Tri Wahyuni ...................................................................... 5 Tabel 2.4. Hasil Eksperimen Jia Wu ......................................................................................... 6 Tabel 2.5. Rangkuman Penelitian Sebelumnya ......................................................................... 7 Tabel 2.6. Contoh Tabel Definisi Data .................................................................................... 13 Tabel 3.1 Pembagian Data ....................................................................................................... 19 Tabel 3.2. Contoh Data Kasus ................................................................................................. 19 Tabel 3.3. Contoh Kasus ......................................................................................................... 20 Tabel 3.4 Evaluasai Pengujian ................................................................................................. 23

iv

BAB I PENDAHULUAN

1.1. Latar Belakang Machine learning adalah ilmu yang mempelajari tentang algoritma computer yang bertujuan untuk meningkatkan kecerdasan secara otomatis berdasarkan pengalaman. Belajar menyaring secara otomatis kebutuhan pengguna dari aplikasi yang bervariasi pada data mining yang memanfaatkan data set yang besar membutuhkan adanya machine learning, sehingga machine learning saat ini menjadi pertanyaan penelitian yang penting didalam kecerdasan buatan [1]. Bagi aplikasi yang memiliki ukuran data set yang sangat besar seperti machine learning, pemilihan fitur pada data set akan memiliki dampak yang besar pada kinerja dan kualitas pembelajaran [2]. Dalam merekrut sebanyak mungkin nasabah dapat dilihat dari berbagai upaya yang dilakukan oleh bank dalam kegiatan pemasarannya. Dahulu metode pemasaran usaha kepada calon klien (konsumen) masih menggunakan cara bertatap muka secara langsung. Dengan berkembangnya teknologi metode tersebut mulai ditinggalkan dan dapat digantikan menggunakan media komunikasi elektronik seperti telepon, fax ataupun media lainnya. Kegiatan dengan memanfaatkan media komunikasi elektronik untuk memasarkan produk yang dimiliki tersebut dinamakan telemarketing.

Dengan

memanfaatkan

telemarketing

pihak

bank

dapat

memperkenalkan produk yang dimiliki ke pada klien dengan cepat dan waktu yang lebih cepat. Peranan telemarketing. Penerapatn telemarketing oleh pihak bank, dapat membantu pihak bank dalam melakukan interaksi dengan klient diseluruh wilayah pemasarannya [3]. Dalam ilmu komputer klasifikasi merupakan teknik yang digunakan untuk menentukan item dari dataset kedalam suatu kategori atau kelas. Tujuan dari klasifikasi yaitu sebagai sarana mencari pola dengan menganalisis sekumpulan dataset yang yang mendeskripsikan dan membedakan class data. Sehingga dari class yang diperoleh dapat digunakan untuk memprediksi data yang class-nya belum diketahui [4]. Namun kerap kali dibutuhkan resource yang cukup besar untuk 1

melakukan klasifikasi. Hal ini dapat disebabkan karena data yang akan dilakukan klasifikasi memiliki banyak variabel yang irrelevant, dimensionalitas yang tinggi, ataupun variabel yang redundant. Pada proses klasifikasi, dataset akan dibagi menjadi 2 bagian, yaitu data training dan data testing. Akan tetapi untuk jumlah data dan variabel yang sangat banyak, akan membutuhkan pembuatan model klasifikasi dan dataset yang kompleks. Sehingga sebelum dilakukannya pembagian data ke dalam data training dan data testing diperlukan pemilihan terhadap variabel input yang akan digunakan untuk memperoleh pola yang lebih baik.

Sehingga diperlukan tahapan pre-

prosessing sebelum melakukan proses klasifikasi. Terdapat banyak jenis tahapan preprosesing, salah satunya yaitu Variabel Selection. Variabel Selection merupakan proses mengidentifikasi dan penghapusan variabel yang mengalami redudant atau bersifat irrelevant [5]. Dalam melakukan seleksi variabel, dapat menggunakan metode correlation-based feature selection. Metode correlation-based feature selection melakukan penghitungan dan pembandingan tingkat korelasi antara masing-masing variabel dengan variabel class-nya dan antara variabel dengan variabel lainnya. Naïve bayes merupakan algoritma data mining yang dapat digunakan untuk melakukan klasifikasi. Naïve bayes merupakan algoritma data mining yang menerapkan metode probabilitas dan statistik dengan menggunakan probabilitas di masa sebelumnya untuk memprediksi probabilitas dimasa yang akan datang. Naïve bayes pernah diterapakan untuk mengklasifikasikan data berdimensi tinggi. Data berdimensi tinggi yang dimaksud adalah data yang memiliki proporsi atribut yang tidak relevan. Percobaan dilakukan dengan menggunakan document corpora dan gene micro-array datasets yang menunjukkan efisiensi yang sangat memuaskan dengan presentase sekitar 98% [6]. Berdasarkan penelitian dari kasus-kasus sebelumnya, penelitian ini akan memanfaatkan variable selection menggunakan metode correlation-based untuk klasifikasi klien bank telemarketing menggunakan algoritma Naïve bayes. Dataset yang digunakan merupakan dataset global yang diambil dari UCI data set berupa dataset Bank Marketing yang memiliki 17 atribut real dan 45211 data [7].

2

1.2. Rumusan Masalah Berdasarkan latar belakang yang sudah disebukan sebelumnya, dalam penelitian ini akan dirumuskan masalah sebagai berikut: 1. Belum dimanfaatkannya pemilihan variabel menggunakan metode correlation-base untuk meningkatkan performance klasifikasi pada data “klien bank telemarketing” menggunakan algoritma Naïve Bayes.

1.3. Batasan Penelitian Dari rumusan masalah yang sudah disampaikan maka dibuatlah batasan masalah agar penelitian yang dilakukan tidak melebar dari permasalahan yang dihadapi. Adapun batasan masalah dalam penelitian ini yaitu: 1. Klasifikasi yang dilakukan akan menggunakan algoritma naïve bayes. 2. Pemilihan variabel yang digunakan akan menggunakan metode correlation-base feature selection. 3. Data yang akan digunakan untuk klasifikasi adalah data Bank Marketing yang diambil dari UCI Dataset.

1.4. Tujuan Penelitian Berdasarkan batasan masalah yang ada, terdapat beberapa tujuan yang ingin dicapai. Adapun tujuan dari penelitian ini adalah: 1. Menggunakan algoritma naïve bayes dengan pemilihan variabel menggunakan correlation-based untuk mengklasifikasi data-set Bank Marketing. 2. Membandingkan

hasil

performnce

dari

klasifikasi

klien

bank

telemarketing yang menggunakan algoritma naïve bayes saja dengan penggunaan algoritma naïve bayes yang disertai pemilihan variabel menggunakan correlation-based.

3

1.5. Manfaat Penelitian Dengan adanya penelitian ini yang menggunakan algoritma Naive Bayes untuk mengklasifikasikan klien bank telemarketing dengan correlation-based sebagai feature selection diharapkan dapat memberikan gambaran analisis mengenai hasil akurasi dari klasifikasi klien bank telemarketing yang menggunakan algoritma naïve bayes saja dengan penggunaan algoritma naïve bayes yang disertai pemilihan variabel menggunakan correlation-based feature selection. Dengan adanya hasil yang diperoleh dapat dijadikan sebagai metode acuan dalam penelitian selanjutnya.

4

BAB II TINJAUAN PUSTAKA

2.1. Literatur Review Hai Nguyen, Katrin Franke dan Slobodan Petrovi´c pada tahun 2010 dalam Improving Effectiveness of Intrusion Detection by Correlation Feature Selection, telah melakukan penelitian tentang pentingnya seleksi fitur dalam efektifitas intrusion detection system (IDS) [8]. Tujuan dari penelitian tersebut adalah meningkatkan efektifitas IDS secara keseluruhan dengan pengurangan jumlah fitur yang relevan tanpa memberikan efek negatif pada akurasi klasifikasi menggunakan optimasi correlation-based feature selection (CFS). Pengujian dilakukan dengan menggunakan algoritma C4.5 dan BayesNet machines dengan data KDD CUP'99 IDS. Hasil percobaan menunjukkan bahwa metode CFS mempertahankan akurasi klasifikasi atau bahkan dapat meningkatkan kinerja algoritma menjadi lebih baik. Tabel 2.1. Hasil Eksperimen Hai Nguyen, Katrin Franke dan Slobodan Petrovi´c C4.5 Dataset

KDD99-

BayesNet

Penelitian

Penambahan

Penelitian

Penambahan

sebelumnya

CFS

sebelumnya

CFS

96.65%

98.89%

99.09%

98.87%

99.71%

99.70%

97.65%

97.63%

99.97%

99.96%

99.97%

99.95%

99.01%

99.11%

98.95%

98.81%

98.84%

99.41%

98.91%

98.82%

normal&DoS KDD99normal&Probe KDD99normal&U2R KDD99normal&R2L Rata-rata

Asha Gowda Karegowda, A. S. Manjunath dan M.A. Jayaram pada tahun 2010 dalam Comparative Study of Attribute Selection Using Gain Ratio and 5

Correlation-based Feature Selection, melakukan penelitian tentang seleksi fitur menggunakan 2 pendekatan yaitu Gain ratio dan Correlation-based Feature Selection [9]. Tujuannya adalah untuk membandingkan efektifitas penggunaan jumlah atribut yang kaitannya dengan hasil akurasi. Pengujian dilakukan dengan menggunakan algoritma C4.5 dengan data Pima Indians Diabetes Database yang memiliki 9 atribut (8 atribut input dan 1 atribut output). Hasil pengujian menunjukkan hasil pengurangan atribut dengan seleksi fitur Gain ratio dan Correlation-based Feature Selection dapat meningkatkan nilai akurasi dari klasifikasi yang dilakukan. Tabel 2.2. Hasil Eksperimen Asha Gowda Karegowda, A. S. Manjunath dan M.A.Jayaram Atribut input

Akurasi klasifikasi

8

81.20%

5

86.46%

4

88.00%

Diana Tri Wahyuni, T. Sutojo, dan Ardytha Luthfiarta pada tahun 2014 dalam Prediksi Hasil Pemilu Legislatif Dki Jakarta Menggunakan Naïve Bayes Dengan Algoritma Genetika Sebagai Fitur Seleksi, telah melakukan penelitian tentang prediksi hasil pemilihan umum dengan perhitungan cepat (quickcount) menggunakan algoritma Naive bayes yang diperkuat dengan menggunakan algoritma genetika sebagai seleksi fitur [10]. Tujuan dari penelitian tersebut adalah memanfaatkan algoritma genetika untuk membantu Naive bayes dalam menentukan atribut-atribut mana yang dapat digunakan untuk meningkatkan nilai akurasi. Setelah dilakukan pengujian diperoleh hasil bahwa penggunaan algoritma Naive bayes yang diperkuat dengan algoritma genetika sebagai seleksi fitur memiliki akurasi lebih tinggi dibandingkan hanya menggunakan algortma naive bayes saja. Tabel 2.3. Hasil Eksperimen Diana Tri Wahyuni, T. Sutojo, dan Ardytha Luthfiarta

6

Algoritma

Akurasi

AUC

Naïve bayes

92.28%

0.981

Naïve bayes dan algoritma Genetika

97.84%

0.994

Jia Wu, Shirui Pan, Zhihua Cai, Xingquan Zhu dan Chengqi Zhang pada tahun 2014 dalam Dual Instance and Attribute Weighting for Naive Bayes Classification, membahas tentang Nive bayes sebagai algoritma yang populer untuk klasifikasi dalam data mining dan machine learning membutuhkan teknik atau metode untuk menutupi kelemahan dari Naive bayes untuk memperoleh hasil yang lebih baik [11]. Penelitian tersebut bertujuan untuk menambahkan metode dual instance dan pembobotan atribut sebagai metode yang akan digunakan untuk mendukung Naive bayes dalam melakukan klasifikasi yang mana metode tersebut dapat disebut dengan DWNB (Dual Instance and Attribute Weighting for Naive Bayes). Dalam penggunaan DWNB memungkinkan untuk mengatasi kondisi independence assumption pada akurasi klasifikasi. percobaan dan perbandingan dengan menggunakan 36 patokan dataset menunjukkan bahwa DWNB lebuh baik dibandingkan Naive bayes. Tabel 2.4. Hasil Eksperimen Jia Wu, Shirui Pan, Zhihua Cai, Xingquan Zhu dan Chengqi Zhang Akurasi

No. Dataset

NB

DWNB

1

Anneal

94.32

91.15

2

Anneal.ORIG

88.16

89.92

3

Audiology

71.40

79.15

4

Autos

63.97

75.26

5

Balance-scale

91.44

89.90

6

Breast-cancer

72.94

72.17

7

7

Breast-w

97.30

97.50

8

Colic

78.86

83.67

9

Colic.ORIG

74.21

76.19

10

Credit-a

84.74

86.23

11

Credit-g

75.93

76.79

12

Diabete

75.68

76.26

13

Glass

57.69

60.16

14

Heart-c

83.44

82.32

15

Heart-h

83.64

83.51

16

Heart-statlog

83.78

83.26

17

Hepatitis

84.06

84.28

18

Hypothyroid

92.79

93.63

19

Ionosphere

90.86

92.03

20

Iris

94.33

95.27

21

Kr-vs-kp

87.79

94.75

22

Labor

96.70

89.17

23

Letter

65.80

67.63

24

Lymph

85.97

81.90

25

Mushroom

93.58

99.54

26

Primary-tumor

47.20

48.14

27

Segment

89.03

90.89

28

Sick

96.78

97.30

29

Sonar

76.35

75.33

30

Soybean

92.20

94.30

31

Splice

95.42

96.12

32

Vehicle

61.03

60.97

33

Vote

90.21

94.83

34

Vawel

66.09

66.71

35

Waveform-5000

79.80

80.24

36

Zoo

94.37

93.61

8

Rata-rata

82.16

83.34

Dari beberapa penelitian yang sudah disebutkan sebelumnya maka dapat dibuat rangkuman yang dapat dilihat pada tabel 2.5. Tabel 2.5. Rangkuman Penelitian Sebel...