KLASIFIKASI KOMENTAR TWITTER TENTANG PENGESAHAN UUMD3 MENGGUNAKAN ALGORITMA NAIVE BAYES DAN K-NN.pdf PDF

Title	KLASIFIKASI KOMENTAR TWITTER TENTANG PENGESAHAN UUMD3 MENGGUNAKAN ALGORITMA NAIVE BAYES DAN K-NN.pdf
Pages	34
File Size	2.5 MB
File Type	PDF
Total Downloads	315
Total Views	489

Preview

CLICK TO PREVIEW PDF

Summary

PROPOSAL TUGAS AKHIR KLASIFIKASI KOMENTAR TWITTER TENTANG PENGESAHAN UUMD3 MENGGUNAKAN METODE K-NEAREST NEIGHBOR (K-NN) DAN NAÏVE BAYES Putri Rizqiyah 15102031 PROGRAM STUDI S1 INFORMATIKA FAKULTAS TEKNOLOGI INDUSTRI DAN INFORMATIKA INSTITUT TEKNOLOGI TELKOM PURWOKERTO 2018 PENGESAHAN PROPOSAL TUGAS...

Description

Accelerat ing t he world's research.

KLASIFIKASI KOMENTAR TWITTER TENTANG PENGESAHAN UUMD3 MENGGUNAKAN ALGORITMA NAIVE BAYES DAN K-NN.pdf putri rizqiyah

Related papers

Download a PDF Pack of t he best relat ed papers 

ANALISIS SENT IMEN ONLINE REVIEW PENGGUNA Masviya Chusna

ANALISIS SENT IMEN BERDASARKAN KOMENTAR PUBLIK T ERHADAP T OKO ONLINE DI SOSIAL MEDIA F… Syahmia Gusriani ANALISA SENT IMEN MENGGUNAKAN NAÏVE BAYES UNT UK MENGETAHUI PRESENTASE KOMENTAR PA… put ri rizqiyah

PROPOSAL TUGAS AKHIR

KLASIFIKASI KOMENTAR TWITTER TENTANG PENGESAHAN UUMD3 MENGGUNAKAN METODE K-NEAREST NEIGHBOR (K-NN) DAN NAÏVE BAYES

Putri Rizqiyah 15102031

PROGRAM STUDI S1 INFORMATIKA FAKULTAS TEKNOLOGI INDUSTRI DAN INFORMATIKA INSTITUT TEKNOLOGI TELKOM PURWOKERTO 2018

PENGESAHAN PROPOSAL TUGAS AKHIR Judul

:

KLASIFIKASI KOMENTAR TWITTER TENTANG PENGESAHAN UUMD3 MENGGUNAKAN METODE K-NEAREST NEIGHBOR (KNN) DAN NAÏVE BAYES

Nama

:

Putri Rizqiyah

NIM

:

15102031

Proposal ini telah dipaparkan di hadapan Penguji Sidang Proposal, dan disetujui untuk dijadikan pedoman dalam penyusunan Tugas Akhir Purwokerto, 25 Juli 2018

Penguji

Pembimbing I

Andika Elok Amalia S.T.,M.T NIDN. 0610029001

Tri Ginanjar Laksana, M.Cs.,M.Kom. NIDN. 0407088502

ii

DAFTAR ISI PENGESAHAN PROPOSAL TUGAS AKHIR .................................................................... ii DAFTAR ISI ......................................................................................................................... iii BAB I PENDAHULUAN ...................................................................................................... 1 1.1

Latar Belakang ......................................................................................................... 1

1.2

Rumusan Masalah .................................................................................................... 4

1.3

Tujuan Penelitian ..................................................................................................... 4

1.4

Batasan Masalah ...................................................................................................... 4

BAB II TINJAUAN PUSTAKA ............................................................................................ 6 2.1

Penelitian Terdahulu ................................................................................................ 6

2.1.1

Penelitian Prasetyo dkk. ................................................................................. 10

2.1.2

Penelitian Lidya dkk. ...................................................................................... 11

2.1.3

Penelitian Indrayuni dkk. ................................................................................ 12

2.1.4

Penelitian Naffisah dkk. ................................................................................. 13

2.2

Dasar Teori ............................................................................................................ 16

2.2.1

Twitter ............................................................................................................ 16

2.2.2

Sentimen Analysis .......................................................................................... 16

2.2.3

Klasifikasi ....................................................................................................... 17

2.2.4

Pre-processing ................................................................................................ 19

2.2.5

Pembototan Term Frequency Inverse Document Frequency (TF-IDF) ......... 20

2.2.6

K-Fold Cross Validation ................................................................................. 20

2.2.8

Python ............................................................................................................. 20

2.3

Kerangka Berfikir .................................................................................................. 22

BAB III METODE PENELITIAN ....................................................................................... 23 3.1 Proses Analisis Sentimen pada Dokumen .................................................................. 23 3.1.1 Pengumpulan Data ............................................................................................... 23 3.1.2

Pre-Processing ................................................................................................ 24

3.1.3

Ekstraksi Fitur ................................................................................................ 24

3.1.4

Pembobotan Term .......................................................................................... 25

3.1.5

Metode yang diusulkan ................................................................................... 25 iii

3.1.6 3.2

Akurasi ........................................................................................................... 26

Jadwal Kegiatan ..................................................................................................... 27

DAFTAR PUSTAKA ........................................................................................................... 28

iv

BAB I PENDAHULUAN 1.1 Latar Belakang Pengguna Twitter di Indonesia setiap tahunnya selalu bertambah, bahkan Indonesia menjadi negara terbesar kelima yang paling banyak memberikan tweet setiap harinya dimana pusat dari tweet ini berasal dari kota Jakarta. Berdasarkan sumber dari Techinasia kota tersebut memberikan angka sebanyak 2.4% dari 10.6 juta twitter terhitung dari bulan januari sampai Maret tahun 2018 . Selain itu, Indonesia menempati urutan kelima pengguna twitter terbanyak setelah Negara USA, Brasil, Jepang, dan UK [1] Tabel 1. Data Pengguna Twitter Dalam Satuan Juta.

Data Pengguna Twitter di Indonesia 25 20 15 pengguna

10 5 0 2014

2015

2016

2017

2018

2019

(sumber: statista.com) Twitter banyak digunakan karena penggunaanya yang sederhana, pengguna cukup mendaftar menggunakan e-mail dan bisa menikmati layanan yang ada di twitter, salah satu layanan yang paling banyak digunakan adalah layanan tweet yang biasa digunakan dalam memberikan opini, kritisi, saran atas suatu hal. Banyaknya tweet yang muncul setiap harinya, akan menjadi sia-sia jika tidak dimanfaaatkan, sehingga dibutuhkan suatu teknik yang dapat mengolah tweet-tweet tersebut untuk menghasilkan informasi yang berharga.

1

Sentimen analisis merupakan suatu bidang studi yang menganalisis opini seseorang, sentimen, evaluasi, penilaian, perilaku dan emosi melalui entitas seperti produk, layanan, organisasi, individual, issu, kejadian, topik dan atribut-atribut mereka [2]. Sentimen analisis banyak digunakan untuk kepentingan bisnis, pendidikan atau pemerintah dalam menganalisis opini masyarakat atas suatu kejadian sehingga kebijakan yang dibuat akan sesuai dengan kebutuhan masyarakat. Sentimen analisis dalam dunia bisnis biasanya digunakan untuk menganalisis kebutuhan pasar, atau kebutuhan masyarakat yang diharapkan dapat menyusun strategi pemasaran yang dapat meningkatkan pendapatan perusahaan mereka. Pada penelitian ini akan dibahas mengenai sentimen analisis masyarakat terhadap pengesahan UUMD3 pada media sosial twitter, undang-undang ini merupakan revisi dari Undang-Undang no. 17 tahun 2014 mengenai MPR, DPR, DPD dan DPRD atau MD3. Semenjak pengesahannya pada tanggal 2 Februari 2018 UUMD3 telah memberikan banyak penolakan bagi kalangan masyarakat, dikarenakan beberapa pasal yang ada pada undang-undang tersebut telah memunculkan kontroversi [3]. Berdasarkan kejadian ini banyak masyarakat meluapkan perasaannya melalui media sosial khususnya di twitter, bahkan dalam 24 jam petisi penolakan Tolak Revisi UUMD3 telah tembus sebanyak 117.000 dukungan [4]. Hal ini menarik untuk diteliti mengingat banyaknya masyarakat yang kontra terhadap pengesahan UUMD3. Adanya fenomena tersebut, dibutuhkan suatu algoritma untuk mengklasifikasikan komentar pengguna baik positif maupun negatif. Hal tersebut dibutuhkan untuk mengetahui seberapa banyak masyarakat Indonesia yang memberikan penolakan dan penerimaan terhadap pengesahan UUMD3 ini, angka ini dibutuhkan karena suara rakyat bisa menjadi kekuatan yang besar atas penegakan suatu hukum dan undang-undang. .

Terdapat

beberapa

algoritma

yang

mengklasifikasikan komentar diantaranya adalah

dapat

digunakan

dalam

Naïve Bayes, Support Vector

Machine, Decision Tree, dan K-Nearest Neighbor. Naïve Bayes merupakan salah satu algoritma klasifikasi dengan metode probabilitas dan statistik yang dikemukakan oleh ilmuwan Inggris Thomas Bayes, 2

yaitu memprediksi peluang di masa depan berdasarkan pengalaman dimasa sebelumnya sehingga dikenal dengan Teorema Bayes. Kelebihan dari algoritma ini adalah sederhana dan hanya membutuhkan perhitungan yang banyak. Algoritma ini cepat dan mudah serta kinerjanya cukup baik namun algoritma ini memiliki kekurangan, kekurangannya yang paling utama adalah algoritma ini tidak dapat mempelajari interaksi antar fitur [5]. Selanjutnya adalah algoritma Support Vector Machine (SVM), yang merupakan salah satu algoritma dimana setiap item data diplot sebagai titik dalam ruang n-dimensi (dimana n adalah jumlah fitur yang dimiliki) dengan nilai setiap fitur menjadi nilai koordinat tertentu. Kelebihan dari algoritma ini adalah memiliki akurasi yang tinggi, dan bagus secara teoritis dengan kernel yang tepat, algoritma dapat bekerja dengan baik bahkan jika data yang ada tidak dapat dipisahkan secara linear di ruang fitur dasar. Namun kekurangan dari algoritma ini adalah biaya yang dibutuhkan cukup besar dan sangat rumit diimplementasikan [5]. Selain itu Decision Tree yang memiliki konsep umum dalam membuat model training digunakan untuk memprediksi class atau value dari variable target menggunakan learning decision rules yang disimpulkan dari training data. Kelebihan dari algoritma ini adalah mudah untuk diinterpretasi, algoritma ini mudah meng-handle interaksi fitur dan tidak menggunakan parameter. Namun kekurangan dari algoritma ini adalah tidak mendukung online learning, jadi jika terdapat data yang baru diharuskan membangun ulang pohon keputusan kembali [5]. Algoritma yang terakhir adalah algoritma K-Nearest Neighbor (K-NN). Algoritma K-NN merupakan salah satu algoritma yang sederhana selain dari algoritma Naïve Bayes. K-NN merupakan algoritma yang tidak memiliki asumsi pada distribusi data yang menaunginya. K-NN juga tidak membutuhkan data training sehingga membuat fase saat training menjadi cepat dan flexible. Namun kekurangan dari algoritma ini adalah predikisi yang diberikan bisa mengandung banyak noise ketika data tersebut memiliki banyak noise [6]. Berdasarkan hasil perbandingan, K-NN dan Naïve Bayes lebih cocok untuk digunakan dalam pengklasifikasian teks karena algoritma tersebut termasuk sederhana dan flexible. Sehingga, dalam penelitian ini akan mengkomparasi antara 3

K-NN dan Naïve Bayes dalam klasifikasi komentar masyarakat pada media sosial Twitter mengenai pengesahan UUMD3. Tujuan yang ingin dicapai dalam penelitian ini adalah untuk menganalisis penerimaan dan penolakan masyarakat terhadap pengesahan UUMD3 berdasarkan hasil akurasi dari kedua algoritma.

1.2 Rumusan Masalah Rumusan masalah dari penelitian ini adalah belum adanya klasifikasi komentar masyarakat di twitter mengenai pengesahan UUMD3 untuk mengetahui seberapa banyak masyarakat Indonesia yang memberikan penolakan dan penerimaan terhadap pengesahan UUMD3. Dari rumusan masalah tersebut maka munculah pertanyaan penelitian sebagai berikut: a.

Seberapa besar hasil akurasi klasifikasi komentar menggunakan K-NN dan Naïve Bayes?

b.

Berapa prosentase komentar positif dan negatif pada pengesahan UUMD3?

1.3 Tujuan Penelitian Berdasarkan dekomposisi masalah dalam rumusan masalah tujuan penelitian ini adalah sebagai berikut: 1.

Implementasi algoritma K-NN dan Naïve Bayes.

2. Menghasilkan nilai akurasi algoritma K-NN dan Naïve Bayes dan menentukan algoritma terbaik pada klasifikasi komentar pengesahan UUMD3. 3. Menganalisis penerimaan dan penolakan masyarakat terhadap data komentar pengesahan UUMD3.

1.4 Batasan Masalah Batasan Masalah dalam penelitian ini adalah sebagai berikut: 1. Penelitian ini membandingkan Akurasi antara algoritma

K-NN dan Naïve

Bayes.

4

2. Tweet yang dilakukan penelitian merupakan tweet berbahasa Indonesia. Jumlah data yang digunakan sebanyak 300 tweet yang terdiri dari 200 tweet untuk data latih dan 100 untuk data uji.

5

BAB II TINJAUAN PUSTAKA 2.1 Penelitian Terdahulu Tabel 2. Penelitian terdahulu Judul paper, No

Data

Masalah

Metode

Evaluasi

penulis dan

Perbedaan dengan penelitian yang akan dilakukan

tahun penelitian

1

Uji Kinerja

Data publik yang

KSVNN

Dan Analisis

diunduh dari UCI

mempun

K-Support

Machine Learning

yai

Vector Nearest

Repository. Iris (150

Lamanya

KSVN

akurasi

Neighbor

record, 4 fitur), Vertebral

waktu yang

N,

lebih

Terhadap

Column (310 record, 6

digunakan

Naïve

baik

Decision Tree

fitur), Wine (178

oleh K-NN

Bayes,

18%

dan Naïve

records, 13 fitur), Glass

pada saat

Decisio

dibandin

Bayes.

(214 record, 9 fitur).

prediksi.

n Tree

gkan

Eko Prasetyo ,

https://archive.ics.uci.edu

dengan

Rr Ani Dijah

/ml/datasets/iris

decision

Rahajoe,

http://archive.ics.uci.edu/

tree dan

Penelitian ini dilakukan untuk menganalisis perbandingan kesamaan, perbedaan dan kinerja terhadap metode Naïve Bayes dan Decision Tree, dan penelitian yang akan dilakukan menganalisis akurasi antara metode K-NN dan Naïve Bayes

6

Soffiana

ml/datasets/vertebral+col

Naïve

Agustin, Arif

umn

Bayes

Arizal, 2013

https://archive.ics.uci.edu

[7]

/ml/datasets/wine https://archive.ics.uci.edu /ml/datasets/glass+identif ication

Sentiment Analysis pada Teks Bahasa Indonesia menggunakan 2

SVM dan KNN. Syahfitri Kartika Lidya, Opim Salim Sitompul,

teks artikel berbahasa

akurasi

indonesia yang diambil

KNN=

dari website berita terbaik di Indonesia seperti tribunnews.com

Akurasi yang

KNN

metrotvnews.com,

rendah saat

dan

kompas.com dan website

nilai k kecil

SVM

berita lainnya https://github.com/yasser g/crawler4j

60.30%

Penelitian ini dilakukan untuk

dan

membandingkan metode KNN

SVM=

dan SVM, dan penelitian yang

67.90%

akan dilakukan

pada fold

membandingkan akurasi

cross

antara K-NN dan Naïve Bayes

validatio n ke 10

Syahril Efendi,

7

2015 [8]

3

Penerapan

82.67%

character N-

sebelum

Gram untuk

penerapa

Penelitian ini memfokuskan

n N-

pada bagaimana penerapan

gram

character N-gram dapat

Characte

meningkatkan nilai akurasi

Naïve

r, 84.67

sedangkan penelitian yang

Bayes

%

akan dilakukan memfokuskan

setelah

pada perbandingan akurasi

penerapa

pada setiap algoritma dengan

Mochamad

n N-

sama-sama menerapkan

Wahyudi,

gram

character N-gram

2015. [9]

characte

Sentiment

review komentar pada

Analysis

tripadvisor.com data

Review Hotel

yang digunakan

Menggunakan

berjumlah 300 150

Algoritma

positif dan 150 negatif.

Naïve Bayes.

www.tripadvisor.com

Elly Indrayuni

Akurasi yang rendah tanpa penerapan Ngram Character

r

4

Penggunaan

Twitter dengan Tema

Analisis jenis

Text Mining

Harga Bahan Pokok,

bahan pokok

pada Analisis

analisis mengenai jenis

yang paling

Sentimen

bahan pokok yang paling

berpengaruh

Masyarakat

berpengaruh terhadap

terhadap

terhadap

munculnya sentiment

sentimen

SVM, Decisio n Tree, Naïve Bayes

(Tanpa

Penelitian ini mengukur

Stemmin

asosiasi antara jenis bahan

g)

pokok menggunakan uji chi

Naïve

square dan Prosedur

Bayes

Marasquilo, sedangkan

65.76.%

penelitian yang dilakukan

8

Perubahan

negatif.

negatif

SVM:

tidak mengukur asosiasi antar

Harga Bahan

https://scraperwiki.com/h

masyarakat

75.19%

variabel

Pokok melalui

elp/twitter-search/

Decision

Twitter.

Tree:

Muthia Szami

53.99%

Naffisah, Isti

(

Surjandari

Stemmin

Departemen,

g)

2014 [10].

NB: 72.3% SVM: 80.35% DT: 54.22%

Berdasarkan penelitian terdahulu pada tabel 2 diatas maka, dapat dijelaskan penjelsan secara rinci untuk masingmasing penelitian:

9

2.1.1

Penelitian Prasetyo dkk. Pada penelitian yang dilakukan oleh Eko prasetyo dkk. Pada tahun 2013, telah dilakukan pengujian terhadap data publik yang didapatkan dari UCI Machine Learning Repository. Masalah yang akan diatasi adalah lamanya waktu yang digunakan oleh K-NN pada saat prediksi. Algoritma yang diusulkan adalah KSVNN, Naive Bayes, dan Decision Tree telah didapatkan

hasil

bahwa

KSVNN

mempunyai

akurasi

lebih

18%

dibandingkan dengan Decision Tree dan Naive Bayes.
...