Title | KLASIFIKASI KOMENTAR TWITTER TENTANG PENGESAHAN UUMD3 MENGGUNAKAN ALGORITMA NAIVE BAYES DAN K-NN.pdf |
---|---|
Pages | 34 |
File Size | 2.5 MB |
File Type | |
Total Downloads | 315 |
Total Views | 489 |
PROPOSAL TUGAS AKHIR KLASIFIKASI KOMENTAR TWITTER TENTANG PENGESAHAN UUMD3 MENGGUNAKAN METODE K-NEAREST NEIGHBOR (K-NN) DAN NAÏVE BAYES Putri Rizqiyah 15102031 PROGRAM STUDI S1 INFORMATIKA FAKULTAS TEKNOLOGI INDUSTRI DAN INFORMATIKA INSTITUT TEKNOLOGI TELKOM PURWOKERTO 2018 PENGESAHAN PROPOSAL TUGAS...
Accelerat ing t he world's research.
KLASIFIKASI KOMENTAR TWITTER TENTANG PENGESAHAN UUMD3 MENGGUNAKAN ALGORITMA NAIVE BAYES DAN K-NN.pdf putri rizqiyah
Related papers
Download a PDF Pack of t he best relat ed papers
ANALISIS SENT IMEN ONLINE REVIEW PENGGUNA Masviya Chusna
ANALISIS SENT IMEN BERDASARKAN KOMENTAR PUBLIK T ERHADAP T OKO ONLINE DI SOSIAL MEDIA F… Syahmia Gusriani ANALISA SENT IMEN MENGGUNAKAN NAÏVE BAYES UNT UK MENGETAHUI PRESENTASE KOMENTAR PA… put ri rizqiyah
PROPOSAL TUGAS AKHIR
KLASIFIKASI KOMENTAR TWITTER TENTANG PENGESAHAN UUMD3 MENGGUNAKAN METODE K-NEAREST NEIGHBOR (K-NN) DAN NAÏVE BAYES
Putri Rizqiyah 15102031
PROGRAM STUDI S1 INFORMATIKA FAKULTAS TEKNOLOGI INDUSTRI DAN INFORMATIKA INSTITUT TEKNOLOGI TELKOM PURWOKERTO 2018
PENGESAHAN PROPOSAL TUGAS AKHIR Judul
:
KLASIFIKASI KOMENTAR TWITTER TENTANG PENGESAHAN UUMD3 MENGGUNAKAN METODE K-NEAREST NEIGHBOR (KNN) DAN NAÏVE BAYES
Nama
:
Putri Rizqiyah
NIM
:
15102031
Proposal ini telah dipaparkan di hadapan Penguji Sidang Proposal, dan disetujui untuk dijadikan pedoman dalam penyusunan Tugas Akhir Purwokerto, 25 Juli 2018
Penguji
Pembimbing I
Andika Elok Amalia S.T.,M.T NIDN. 0610029001
Tri Ginanjar Laksana, M.Cs.,M.Kom. NIDN. 0407088502
ii
DAFTAR ISI PENGESAHAN PROPOSAL TUGAS AKHIR .................................................................... ii DAFTAR ISI ......................................................................................................................... iii BAB I PENDAHULUAN ...................................................................................................... 1 1.1
Latar Belakang ......................................................................................................... 1
1.2
Rumusan Masalah .................................................................................................... 4
1.3
Tujuan Penelitian ..................................................................................................... 4
1.4
Batasan Masalah ...................................................................................................... 4
BAB II TINJAUAN PUSTAKA ............................................................................................ 6 2.1
Penelitian Terdahulu ................................................................................................ 6
2.1.1
Penelitian Prasetyo dkk. ................................................................................. 10
2.1.2
Penelitian Lidya dkk. ...................................................................................... 11
2.1.3
Penelitian Indrayuni dkk. ................................................................................ 12
2.1.4
Penelitian Naffisah dkk. ................................................................................. 13
2.2
Dasar Teori ............................................................................................................ 16
2.2.1
Twitter ............................................................................................................ 16
2.2.2
Sentimen Analysis .......................................................................................... 16
2.2.3
Klasifikasi ....................................................................................................... 17
2.2.4
Pre-processing ................................................................................................ 19
2.2.5
Pembototan Term Frequency Inverse Document Frequency (TF-IDF) ......... 20
2.2.6
K-Fold Cross Validation ................................................................................. 20
2.2.8
Python ............................................................................................................. 20
2.3
Kerangka Berfikir .................................................................................................. 22
BAB III METODE PENELITIAN ....................................................................................... 23 3.1 Proses Analisis Sentimen pada Dokumen .................................................................. 23 3.1.1 Pengumpulan Data ............................................................................................... 23 3.1.2
Pre-Processing ................................................................................................ 24
3.1.3
Ekstraksi Fitur ................................................................................................ 24
3.1.4
Pembobotan Term .......................................................................................... 25
3.1.5
Metode yang diusulkan ................................................................................... 25 iii
3.1.6 3.2
Akurasi ........................................................................................................... 26
Jadwal Kegiatan ..................................................................................................... 27
DAFTAR PUSTAKA ........................................................................................................... 28
iv
BAB I PENDAHULUAN 1.1 Latar Belakang Pengguna Twitter di Indonesia setiap tahunnya selalu bertambah, bahkan Indonesia menjadi negara terbesar kelima yang paling banyak memberikan tweet setiap harinya dimana pusat dari tweet ini berasal dari kota Jakarta. Berdasarkan sumber dari Techinasia kota tersebut memberikan angka sebanyak 2.4% dari 10.6 juta twitter terhitung dari bulan januari sampai Maret tahun 2018 . Selain itu, Indonesia menempati urutan kelima pengguna twitter terbanyak setelah Negara USA, Brasil, Jepang, dan UK [1] Tabel 1. Data Pengguna Twitter Dalam Satuan Juta.
Data Pengguna Twitter di Indonesia 25 20 15 pengguna
10 5 0 2014
2015
2016
2017
2018
2019
(sumber: statista.com) Twitter banyak digunakan karena penggunaanya yang sederhana, pengguna cukup mendaftar menggunakan e-mail dan bisa menikmati layanan yang ada di twitter, salah satu layanan yang paling banyak digunakan adalah layanan tweet yang biasa digunakan dalam memberikan opini, kritisi, saran atas suatu hal. Banyaknya tweet yang muncul setiap harinya, akan menjadi sia-sia jika tidak dimanfaaatkan, sehingga dibutuhkan suatu teknik yang dapat mengolah tweet-tweet tersebut untuk menghasilkan informasi yang berharga.
1
Sentimen analisis merupakan suatu bidang studi yang menganalisis opini seseorang, sentimen, evaluasi, penilaian, perilaku dan emosi melalui entitas seperti produk, layanan, organisasi, individual, issu, kejadian, topik dan atribut-atribut mereka [2]. Sentimen analisis banyak digunakan untuk kepentingan bisnis, pendidikan atau pemerintah dalam menganalisis opini masyarakat atas suatu kejadian sehingga kebijakan yang dibuat akan sesuai dengan kebutuhan masyarakat. Sentimen analisis dalam dunia bisnis biasanya digunakan untuk menganalisis kebutuhan pasar, atau kebutuhan masyarakat yang diharapkan dapat menyusun strategi pemasaran yang dapat meningkatkan pendapatan perusahaan mereka. Pada penelitian ini akan dibahas mengenai sentimen analisis masyarakat terhadap pengesahan UUMD3 pada media sosial twitter, undang-undang ini merupakan revisi dari Undang-Undang no. 17 tahun 2014 mengenai MPR, DPR, DPD dan DPRD atau MD3. Semenjak pengesahannya pada tanggal 2 Februari 2018 UUMD3 telah memberikan banyak penolakan bagi kalangan masyarakat, dikarenakan beberapa pasal yang ada pada undang-undang tersebut telah memunculkan kontroversi [3]. Berdasarkan kejadian ini banyak masyarakat meluapkan perasaannya melalui media sosial khususnya di twitter, bahkan dalam 24 jam petisi penolakan Tolak Revisi UUMD3 telah tembus sebanyak 117.000 dukungan [4]. Hal ini menarik untuk diteliti mengingat banyaknya masyarakat yang kontra terhadap pengesahan UUMD3. Adanya fenomena tersebut, dibutuhkan suatu algoritma untuk mengklasifikasikan komentar pengguna baik positif maupun negatif. Hal tersebut dibutuhkan untuk mengetahui seberapa banyak masyarakat Indonesia yang memberikan penolakan dan penerimaan terhadap pengesahan UUMD3 ini, angka ini dibutuhkan karena suara rakyat bisa menjadi kekuatan yang besar atas penegakan suatu hukum dan undang-undang. .
Terdapat
beberapa
algoritma
yang
mengklasifikasikan komentar diantaranya adalah
dapat
digunakan
dalam
Naïve Bayes, Support Vector
Machine, Decision Tree, dan K-Nearest Neighbor. Naïve Bayes merupakan salah satu algoritma klasifikasi dengan metode probabilitas dan statistik yang dikemukakan oleh ilmuwan Inggris Thomas Bayes, 2
yaitu memprediksi peluang di masa depan berdasarkan pengalaman dimasa sebelumnya sehingga dikenal dengan Teorema Bayes. Kelebihan dari algoritma ini adalah sederhana dan hanya membutuhkan perhitungan yang banyak. Algoritma ini cepat dan mudah serta kinerjanya cukup baik namun algoritma ini memiliki kekurangan, kekurangannya yang paling utama adalah algoritma ini tidak dapat mempelajari interaksi antar fitur [5]. Selanjutnya adalah algoritma Support Vector Machine (SVM), yang merupakan salah satu algoritma dimana setiap item data diplot sebagai titik dalam ruang n-dimensi (dimana n adalah jumlah fitur yang dimiliki) dengan nilai setiap fitur menjadi nilai koordinat tertentu. Kelebihan dari algoritma ini adalah memiliki akurasi yang tinggi, dan bagus secara teoritis dengan kernel yang tepat, algoritma dapat bekerja dengan baik bahkan jika data yang ada tidak dapat dipisahkan secara linear di ruang fitur dasar. Namun kekurangan dari algoritma ini adalah biaya yang dibutuhkan cukup besar dan sangat rumit diimplementasikan [5]. Selain itu Decision Tree yang memiliki konsep umum dalam membuat model training digunakan untuk memprediksi class atau value dari variable target menggunakan learning decision rules yang disimpulkan dari training data. Kelebihan dari algoritma ini adalah mudah untuk diinterpretasi, algoritma ini mudah meng-handle interaksi fitur dan tidak menggunakan parameter. Namun kekurangan dari algoritma ini adalah tidak mendukung online learning, jadi jika terdapat data yang baru diharuskan membangun ulang pohon keputusan kembali [5]. Algoritma yang terakhir adalah algoritma K-Nearest Neighbor (K-NN). Algoritma K-NN merupakan salah satu algoritma yang sederhana selain dari algoritma Naïve Bayes. K-NN merupakan algoritma yang tidak memiliki asumsi pada distribusi data yang menaunginya. K-NN juga tidak membutuhkan data training sehingga membuat fase saat training menjadi cepat dan flexible. Namun kekurangan dari algoritma ini adalah predikisi yang diberikan bisa mengandung banyak noise ketika data tersebut memiliki banyak noise [6]. Berdasarkan hasil perbandingan, K-NN dan Naïve Bayes lebih cocok untuk digunakan dalam pengklasifikasian teks karena algoritma tersebut termasuk sederhana dan flexible. Sehingga, dalam penelitian ini akan mengkomparasi antara 3
K-NN dan Naïve Bayes dalam klasifikasi komentar masyarakat pada media sosial Twitter mengenai pengesahan UUMD3. Tujuan yang ingin dicapai dalam penelitian ini adalah untuk menganalisis penerimaan dan penolakan masyarakat terhadap pengesahan UUMD3 berdasarkan hasil akurasi dari kedua algoritma.
1.2 Rumusan Masalah Rumusan masalah dari penelitian ini adalah belum adanya klasifikasi komentar masyarakat di twitter mengenai pengesahan UUMD3 untuk mengetahui seberapa banyak masyarakat Indonesia yang memberikan penolakan dan penerimaan terhadap pengesahan UUMD3. Dari rumusan masalah tersebut maka munculah pertanyaan penelitian sebagai berikut: a.
Seberapa besar hasil akurasi klasifikasi komentar menggunakan K-NN dan Naïve Bayes?
b.
Berapa prosentase komentar positif dan negatif pada pengesahan UUMD3?
1.3 Tujuan Penelitian Berdasarkan dekomposisi masalah dalam rumusan masalah tujuan penelitian ini adalah sebagai berikut: 1.
Implementasi algoritma K-NN dan Naïve Bayes.
2. Menghasilkan nilai akurasi algoritma K-NN dan Naïve Bayes dan menentukan algoritma terbaik pada klasifikasi komentar pengesahan UUMD3. 3. Menganalisis penerimaan dan penolakan masyarakat terhadap data komentar pengesahan UUMD3.
1.4 Batasan Masalah Batasan Masalah dalam penelitian ini adalah sebagai berikut: 1. Penelitian ini membandingkan Akurasi antara algoritma
K-NN dan Naïve
Bayes.
4
2. Tweet yang dilakukan penelitian merupakan tweet berbahasa Indonesia. Jumlah data yang digunakan sebanyak 300 tweet yang terdiri dari 200 tweet untuk data latih dan 100 untuk data uji.
5
BAB II TINJAUAN PUSTAKA 2.1 Penelitian Terdahulu Tabel 2. Penelitian terdahulu Judul paper, No
Data
Masalah
Metode
Evaluasi
penulis dan
Perbedaan dengan penelitian yang akan dilakukan
tahun penelitian
1
Uji Kinerja
Data publik yang
KSVNN
Dan Analisis
diunduh dari UCI
mempun
K-Support
Machine Learning
yai
Vector Nearest
Repository. Iris (150
Lamanya
KSVN
akurasi
Neighbor
record, 4 fitur), Vertebral
waktu yang
N,
lebih
Terhadap
Column (310 record, 6
digunakan
Naïve
baik
Decision Tree
fitur), Wine (178
oleh K-NN
Bayes,
18%
dan Naïve
records, 13 fitur), Glass
pada saat
Decisio
dibandin
Bayes.
(214 record, 9 fitur).
prediksi.
n Tree
gkan
Eko Prasetyo ,
https://archive.ics.uci.edu
dengan
Rr Ani Dijah
/ml/datasets/iris
decision
Rahajoe,
http://archive.ics.uci.edu/
tree dan
Penelitian ini dilakukan untuk menganalisis perbandingan kesamaan, perbedaan dan kinerja terhadap metode Naïve Bayes dan Decision Tree, dan penelitian yang akan dilakukan menganalisis akurasi antara metode K-NN dan Naïve Bayes
6
Soffiana
ml/datasets/vertebral+col
Naïve
Agustin, Arif
umn
Bayes
Arizal, 2013
https://archive.ics.uci.edu
[7]
/ml/datasets/wine https://archive.ics.uci.edu /ml/datasets/glass+identif ication
Sentiment Analysis pada Teks Bahasa Indonesia menggunakan 2
SVM dan KNN. Syahfitri Kartika Lidya, Opim Salim Sitompul,
teks artikel berbahasa
akurasi
indonesia yang diambil
KNN=
dari website berita terbaik di Indonesia seperti tribunnews.com
Akurasi yang
KNN
metrotvnews.com,
rendah saat
dan
kompas.com dan website
nilai k kecil
SVM
berita lainnya https://github.com/yasser g/crawler4j
60.30%
Penelitian ini dilakukan untuk
dan
membandingkan metode KNN
SVM=
dan SVM, dan penelitian yang
67.90%
akan dilakukan
pada fold
membandingkan akurasi
cross
antara K-NN dan Naïve Bayes
validatio n ke 10
Syahril Efendi,
7
2015 [8]
3
Penerapan
82.67%
character N-
sebelum
Gram untuk
penerapa
Penelitian ini memfokuskan
n N-
pada bagaimana penerapan
gram
character N-gram dapat
Characte
meningkatkan nilai akurasi
Naïve
r, 84.67
sedangkan penelitian yang
Bayes
%
akan dilakukan memfokuskan
setelah
pada perbandingan akurasi
penerapa
pada setiap algoritma dengan
Mochamad
n N-
sama-sama menerapkan
Wahyudi,
gram
character N-gram
2015. [9]
characte
Sentiment
review komentar pada
Analysis
tripadvisor.com data
Review Hotel
yang digunakan
Menggunakan
berjumlah 300 150
Algoritma
positif dan 150 negatif.
Naïve Bayes.
www.tripadvisor.com
Elly Indrayuni
Akurasi yang rendah tanpa penerapan Ngram Character
r
4
Penggunaan
Twitter dengan Tema
Analisis jenis
Text Mining
Harga Bahan Pokok,
bahan pokok
pada Analisis
analisis mengenai jenis
yang paling
Sentimen
bahan pokok yang paling
berpengaruh
Masyarakat
berpengaruh terhadap
terhadap
terhadap
munculnya sentiment
sentimen
SVM, Decisio n Tree, Naïve Bayes
(Tanpa
Penelitian ini mengukur
Stemmin
asosiasi antara jenis bahan
g)
pokok menggunakan uji chi
Naïve
square dan Prosedur
Bayes
Marasquilo, sedangkan
65.76.%
penelitian yang dilakukan
8
Perubahan
negatif.
negatif
SVM:
tidak mengukur asosiasi antar
Harga Bahan
https://scraperwiki.com/h
masyarakat
75.19%
variabel
Pokok melalui
elp/twitter-search/
Decision
Twitter.
Tree:
Muthia Szami
53.99%
Naffisah, Isti
(
Surjandari
Stemmin
Departemen,
g)
2014 [10].
NB: 72.3% SVM: 80.35% DT: 54.22%
Berdasarkan penelitian terdahulu pada tabel 2 diatas maka, dapat dijelaskan penjelsan secara rinci untuk masingmasing penelitian:
9
2.1.1
Penelitian Prasetyo dkk. Pada penelitian yang dilakukan oleh Eko prasetyo dkk. Pada tahun 2013, telah dilakukan pengujian terhadap data publik yang didapatkan dari UCI Machine Learning Repository. Masalah yang akan diatasi adalah lamanya waktu yang digunakan oleh K-NN pada saat prediksi. Algoritma yang diusulkan adalah KSVNN, Naive Bayes, dan Decision Tree telah didapatkan
hasil
bahwa
KSVNN
mempunyai
akurasi
lebih
18%
dibandingkan dengan Decision Tree dan Naive Bayes.
...