Buku Analisis Big Data PDF

Title Buku Analisis Big Data
Author Imam Cholissodin
Pages 567
File Size 44.3 MB
File Type PDF
Total Downloads 272
Total Views 516

Summary

Judul Link: http://bit.ly/2x8ta9S ANALISIS BIG DATA (Teori & Aplikasi) DzBig Data vs Big Information vs Big Knowledgedz Versi 1.01 Oleh: Imam Cholissodin Efi Riyandani PENGANTAR Buku ini memberi pemahaman konsep dasar, maupun tingkat lanjut secara mendetail sebagai solusi dalam penyelesaian untuk ...


Description

Judul

Link: http://bit.ly/2x8ta9S

ANALISIS BIG DATA (Teori & Aplikasi) “Big Data vs Big Information vs Big Knowledge” Versi 1.01

Oleh: Imam Cholissodin Efi Riyandani

PENGANTAR Buku ini memberi pemahaman konsep dasar, maupun tingkat lanjut secara mendetail sebagai solusi dalam penyelesaian untuk kasus apapun dengan konsep Sistem Cerdas melalui pemanfaatan teknologi Big Data mulai dari tingkat dasar sebagai cara yang paling mudah untuk awalan dalam pemahaman, sampai pada implementasi algoritma tanpa Library apapun, misal tidak menggunakan MLlib dari Spark sama sekali atau lainnya, serta melatih dalam memodifikasi algoritma maupun penggabungan dua tools atau lebih untuk membangun ekosistem Big Data yang powerfull. Materi yang tersedia selain memudahkan bagi para pembaca, juga untuk mendukung materi perkuliahan yang dapat membantu pengayaan mahasiswa yang fokus pada pengembangan Artificial Intelligence (AI) untuk Big Data, yang meliputi banyak Machine Learning yang digunakan. Imam Cholissodin Dosen Pengampu MK Analisis Big Data FILKOM UB

2016-2018

Kata Pengantar

Alhamdulillahhi robbil alamin, puji syukur kehadirat Allah SWT atas segala rahmat dan karunia-Nya dengan terselesaikannya penulisan buku ini dengan judul “Analisis Big Data”. Buku ini merupakan uraian untuk memudahkan pemahaman konsep, tingkat dasar sampai lanjut dalam sistem cerdas dan penerapannya melalui pemanfaatan teknologi Big Data, dengan mengedepankan keterampilan dalam pembuatan dan hasil implementasi dengan berbagai kombinasi algoritma berbasis sistem cerdas maupun dengan perpaduan berbagai macam tools untuk membangun ekosistem analisis Big Data yang powerfull. Konsep sederhana Analisis Big Data mencakup Volume, Velocity, dan Variety (3V), dan pengembangannya ada yang menyebut (7V) termasuk Volume, Velocity, Variety, Variability, Veracity, Value dan Visualization, atau 10V bahkan lebih dari itu, tetapi sebaiknya tidak membatasi pemahaman Big Data ini hanya dengan sedikit banyaknya istilah dari huruf V yang digunakan . Kemudian dengan adanya ekosistem tersebut, jika dibutuhkan analisis sederhana maupun yang lebih kompleks, maka harapannya tidak akan ada kendala dari besarnya data yang diolah. Adanya kemajuan teknologi dalam hal penyimpanan, pengolahan, dan analisis Big Data meliputi (a) penurunan secara cepat terhadap biaya penyimpanan data dalam beberapa tahun terakhir; (b) fleksibilitas dan efektivitas biaya pada pusat data dan komputasi awan untuk perhitungan dengan konsep elastisitas dan penyimpanannya; serta (c) pengembangan kerangka kerja baru seperti Hadoop ecosystem (salah satu peluang bisnis yang besar untuk developer untuk saat ini dan ke depannya dalam rangka membangun ekosistem analisis Big Data yang sangat powerfull sekelas Cloudera, Hortonworks, etc), yang memungkinkan pengguna untuk mengambil manfaat dari sistem komputasi terdistribusi, misal untuk menyimpan sejumlah data yang besar melalui pemrosesan parallel, dukungan database NoSQL, dan komputasi berbasis streaming. Sehingga kemajuan teknologi ini telah menciptakan beberapa perbedaan yang sangat signifikan, misal dalam hal kecepatan maupun ketepatan dari hasil yang didapatkan antara analisis tradisional dengan tools yang bukan dengan konsep Big Data versus analisis modern untuk saat ini dan masa depan dengan membangun ekosistem Big Data yang sangat powerfull. Penulis mengucapkan terimakasih yang sebesar-besarnya kepada kedua orang tua penulis, spesial kepada Istriku tercinta “Alfun Lailatul Musabbikha”, bapak ibu mertua, dik Wiwik, dik Ganda, kak Mat, kak Deri, Bude Gi, Pakde Dul, Bude Gani, Pak Abu, mbak Nik, dik Andre, Mbak As, Mbak Lia, Mas Mualif, Mbak Lis, Pakde Naji, Bulik Yul, Pakde Tasrun, Pakde Zen, Pakde Zud, Paklik Fiq, mas Bowo dan semua sanak saudaraku yang tak bisa kusebutkan seluruhnya, serta beberapa pihak yang telah membantu penyelesaian buku ini: ii

1. Para penulis artikel Analisis Big Data di forum, web, blog dan buku yang menjadi referensi buku ini untuk memberikan masukan yang sangat berharga sekali untuk perbaikan dan penyelesaian buku ini. 2. Mbak Efi Riyandani, yang telah banyak membantu penulisan buku, dan mahasiswa-mahasiswa terbaik saya semester Ganjil 2016/2017, yaitu: Maryamah, Moh. Fadel Asikin, Daisy Kurniawaty, Selly Kurnia Sari, Nanda Agung Putra, Ardisa Tamara Putri, Dhimas Anjar Prabowo, Listiya Surtiningsih, Raissa Arniantya, Brillian Aristyo Rahadian, Diva Kurnianingtyas, Dyan Putri Mahardika, Tusty Nadia Maghfira. 3. Mahasiswa-mahasiswa terbaik saya semester Ganjil 2017/2018, yaitu: Yessica Inggir F., Kholifaul K., Ni Made Gita D. P., Ema Agasta, Retiana Fadma P. Sinaga, Fachrul Rozy Saputra Rangkuti, Yunita Dwi Alfiyanti, Dyah Ayu Wahyuning Dewi, Annisaa Amalia Safitri, Sarah Aditya Darmawan, Danastri Ramya Mehaninda, Eka Novita Shandra, Fakharuddin Farid Irfani, Rio Cahyo Anggono, Robih Dini, Yulia Kurniawati, Novirra Dwi Asri, Muhammad Vidi Mycharoka, Vania Nuraini Latifah, Olivia Bonita, Eka Miyahil Uyun, Cusen Mosabeth, Evilia Nur Harsanti, Ivarianti Sihaloho. Semoga kontribusi kalian menjadi ilmu yang barokah dan bermanfaat. Aamiin. :). Tidak ada gading yang tak retak. Maka penulis memohon kritik dan saran untuk perbaikan dan penyempurnaan buku ini. In Syaa Allah pada edisi berikutnya, kami akan memberikan manualisasi Map Reduce, Spark, etc. dari setiap algoritma pada setiap contoh kasusnya. Selamat membaca buku ini dan semoga bermanfaat. Malang, 19 Juli 2016-24 Mei 2018

Penulis

iii

Daftar Isi

Judul ...................................................................................................... i Kata Pengantar ..................................................................................... ii Daftar Isi .............................................................................................. iv Daftar Tabel ........................................................................................ viii Daftar Gambar ..................................................................................... ix Daftar Source Code .......................................................................... xxvi BAB 1

Konsep Big Data .............................................................. 1 1.1

Pengantar......................................................................... 1

1.2

Gambaran Umum Big Data.............................................. 3

1.3

Karakteristik Big Data (3V)............................................... 5

1.4

Ekosistem Big Data Analytics .......................................... 7

1.5

Ekosistem Tool Big Data Analytics .................................. 9

1.6

Tugas Kelompok ............................................................ 13

BAB 2

Analitik Big Data & Lifecycle ......................................... 14 2.1

Pengantar....................................................................... 14

2.2

Teknologi Advaced (Tools) Big Data ............................. 14

2.3

Arsitektur Big Data ......................................................... 16

2.4

Key Roles Kunci Sukses Proyek Analitik ....................... 20

2.5

Lifecycle Analitik Data .................................................... 22

2.6

Tugas Kelompok ............................................................ 24

BAB 3

Teknologi dan Tools Big Data (Bagian 1) ..................... 26 3.1

Konsep Pengolahan Big Data ........................................ 26

3.2

Introduction to Hadoop................................................... 27

3.3

3.2.1

Hadoop Distributed File System (HDFS) ........... 28

3.2.2

MapReduce (MR) ............................................... 30

Konfigurasi Hadoop Single Node Cluster di Linux ......... 34 3.3.1

Studi Kasus & Solusi Hadoop ............................ 35

3.3.2

Konfigurasi dengan Eclipse IDE ........................ 53

3.3.3

Konfigurasi dengan HUE ................................... 69

iv

3.4

3.5 BAB 4

3.3.4

Konfigurasi dengan Spark.................................. 93

3.3.5

Konfigurasi dengan Mahout ............................. 132

Konfigurasi Hadoop Single Node Cluster di Windows . 140 3.4.1

Konfigurasi dengan Syncfusion ....................... 154

3.4.2

Konfigurasi dengan Eclipse IDE ...................... 161

3.4.3

Konfigurasi dengan Spark................................ 170

Tugas Kelompok .......................................................... 173 Teknologi dan Tools Big Data (Bagian 2) ................... 175

4.1

Konsep Single (Standalone) Vs Multi-Node Cluster .... 175

4.2

Hadoop Multi Node Cluster (Pseudo-Distributed)........ 176

4.3

Hadoop Multi Node Cluster (Full Distributed) .............. 204

4.4

Studi Kasus (Sederhana) ............................................. 217

4.5

Studi Kasus (Run Kode Program)................................ 225

4.6 BAB 5

4.5.1

Klasifikasi: NB dengan Terminal ...................... 225

4.5.2

Klasifikasi: NB dengan Eclipse ........................ 230

4.5.3

Clustering: K-Means ........................................ 237

Tugas Kelompok .......................................................... 242 Analitik Data Tingkat Lanjut (Clustering) ..................... 244

5.1

Konsep Clustering ........................................................ 244

5.2

K-Means vs Kernel K-means ....................................... 245

5.3

Studi Kasus .................................................................. 188

5.4

Tugas Kelompok .......................................................... 195

BAB 6

Analitik Data Tingkat Lanjut (Regresi) ......................... 197 6.1

Konsep Regresi ........................................................... 197

6.2

Analisis Teknikal dan Fundamental ............................. 198

6.3

Regresi Linear & Regresi Logistic ............................... 199

6.4

Extreme Learning Machine (ELM) ............................... 200

6.5

Tugas Kelompok .......................................................... 207

BAB 7

Analitik Data Tingkat Lanjut (Klasifikasi)...................... 208 7.1

Konsep Klasifikasi ........................................................ 208

7.2

Linear dan Non-Linear Classifier ................................. 209

v

7.3

Algoritma Klasifikasi ..................................................... 210 7.3.1

ELM Untuk Regresi Vs Untuk Klasifikasi ......... 210

7.3.2 Support Vector Machine (SVM) Linear dan NonLinear 211 7.4 BAB 8

Tugas Kelompok .......................................................... 221 Teknologi dan Tools Big Data (Bagian 3) ................... 223

8.1

8.2

8.3

8.4 BAB 9

Editor + GUI untuk Spark Java/ Spark Scala/ PySpark223 8.1.1

Install Sublime Text.......................................... 224

8.1.2

Eclipse + Spark Standalone (Java EE) ............ 224

8.1.3

Eclipse + Spark + Scala IDE + Maven ............. 225

8.1.4

Eclipse + Spark + Scala IDE + SBT................. 243

8.1.5

Eclipse + PySpark + PyDev ............................. 254

8.1.6

PySpark + Pycharm ......................................... 318

8.1.7

IntelliJ IDEA + SBT .......................................... 340

8.1.8

Konfigurasi & Solusi Error/Bug ........................ 361

Konfigurasi Tambahan ................................................. 364 8.2.1

Create VM dari file *.vdi dan UUID Baru.......... 364

8.2.2

Share Folder Pada Linux Pada VirtualBox ...... 367

Konfigurasi Hadoop + MongoDB ................................. 373 8.3.1

WordCount ....................................................... 386

8.3.2

Movie Ratings .................................................. 399

Tugas Kelompok .......................................................... 412 Project Pilihan Analisis Big Data .................................. 413

9.1

9.2

9.3

Seleksi Asisten Praktikum............................................ 413 9.1.1

Dasar Teori ...................................................... 414

9.1.2

Impelementasi .................................................. 417

Klasifikasi Kendaraan Bermotor................................... 423 9.2.1

Dasar Teori ...................................................... 424

9.2.2

Implementasi .................................................... 427

Clustering Judul Majalah.............................................. 432 9.3.1

Dasar Teori ...................................................... 434

9.3.2

Implementasi .................................................... 436 vi

9.4

9.5

9.6

9.7

Collaborative Filtering .................................................. 440 9.4.1

Dasar Teori ...................................................... 440

9.4.2

Implementasi .................................................... 443

Klasifikasi Data Kualitatif (C4.5)................................... 446 9.5.1

Dasar Teori ...................................................... 447

9.5.2

Implementasi .................................................... 452

Clustering Tingkat Pengetahuan.................................. 456 9.6.1

Dasar Teori ...................................................... 457

9.6.2

Implementasi .................................................... 460

Klasifikasi Kanker Payudara (SVM) ............................. 462 9.7.1

Dasar Teori ...................................................... 464

9.7.2

Implementasi .................................................... 467

Daftar Pustaka .................................................................................. 470 Biografi Penulis ................................................................................. 476

vii

Daftar Tabel

Tabel 5.1 Contoh Data 2 Dimensi .................................................... 188 Tabel 5.2 xi ....................................................................................... 190 Tabel 5.3

 ( xi ) ................................................................................ 190

Tabel 5.4 Fungsi Pemetaan Cluster 1 .............................................. 190 Tabel 5.5 Fungsi Pemetaan Cluster 2 .............................................. 191 Tabel 5.6 Nilai Kernel data i terhadap semua data cluster 1 iterasi 1 .......................................................................................................... 192 Tabel 5.7 Nilai Kernel Antar Data Pada Cluster j untuk iterasi 1...... 193 Tabel 5.8 Jarak dan alokasi data untuk centroid terdekat iterasi 1 .. 194 Tabel 6.1 Dataset ............................................................................. 199 Tabel 6.2 Data Training .................................................................... 202 Tabel 7.1 Data Training dan Data Testing ....................................... 214 Tabel 7.2 𝛼i ....................................................................................... 214 Tabel 7.3 Hasil Perhitungan Dij ......................................................... 215 Tabel 7.4 Hasil Perhitungan Ei .......................................................... 215 Tabel 7.5 Hasil Perhitungan

i .................................................... 216

Tabel 7.6 Hasil Perhitungan

 i ....................................................... 216

Tabel 7.7 Hasil klasifikasi sign(f(x)) .................................................. 217 Tabel 7.8 Hasil Perhitungan xtest1 .................................................... 218 Tabel 7.9 Contoh 3 SVM Biner dengan Metode One-Against-All .... 218 Tabel 7.10 Metode One-Against-One dengan 4 Kelas .................... 219 Tabel 7.11 Metode BDTSVM dengan 7 Kelas ................................. 220 Tabel 8.1 Perbedaan SQL dengan MongoDB.................................. 376 Tabel 9.1 Contoh Dataset Setiap Kategori ....................................... 434

viii

Daftar Gambar

Gambar 1.1 Perkembangan data ......................................................... 1 Gambar 1.2 Data Science vs Business Intelligence ............................ 2 Gambar 1.3 Gambaran Umum Big Data .............................................. 3 Gambar 1.4 Big Data dengan 6V+ 1V(Visualization)=7V ........................ 4 Gambar 1.5 Big Data dengan 10V ....................................................... 4 Gambar 1.6 Tradisional vs Big Data .................................................... 5 Gambar 1.7 Bentuk Infrastruktur Data Center...................................... 6 Gambar 1.8 Google Cloud Platform ..................................................... 6 Gambar 1.9 Analyze small subsets of data .......................................... 6 Gambar 1.10 Analyze all data .............................................................. 6 Gambar 1.11 Batch dan stream processing ....................................... 37 Gambar 1.12 Traditional Approach ...................................................... 6 Gambar 1.13 Big Data Approach ......................................................... 6 Gambar 1.14 Variety Data .................................................................... 6 Gambar 1.15 Rangkuman 3V dan Veracity.......................................... 6 Gambar 1.16 Gambaran Ekosistem Big Data ...................................... 7 Gambar 1.17 Perkembangan Analytics................................................ 7 Gambar 1.18 Contoh Ekosistem Hadoop ke-1................................... 10 Gambar 1.19 Contoh Ekosistem Hadoop ke-2................................... 11 Gambar 1.20 Cloudera vs Hortonworks vs MapR .............................. 13 Gambar 2.1 Daftar Perusahaan ......................................................... 14 Gambar 2.2 Faktor yang mendorong (driving) adopsi Big Data......... 15 Gambar 2.3 Arsitektur Big Data ......................................................... 17 Gambar 2.4 Data Integration Using Apache NiFi dan Apache Kafka 19 Gambar 2.5 Integrating Apache Spark dan NiFi for Data Lakes ........ 19 Gambar 2.6 Key Roles Kunci Sukses Proyek Analitik ....................... 20 Gambar 2.7 Gambaran Umum dari Lifecycle Analitik Data ............... 22 Gambar 3.1 Distributed System (a) dan Paralel System (b) .............. 26 Gambar 3.2 Ilustrasi Hadoop HDFS......


Similar Free PDFs