orange machine learning PDF

Title orange machine learning
Author So Good Point
Course Programming
Institution Chulalongkorn University
Pages 136
File Size 8.4 MB
File Type PDF
Total Downloads 72
Total Views 128

Summary

Orange machine learning visualization and data mining...


Description

Orange: A Visual Programming Tool for Machine Learning and Data Analytics A Guide to Mastering Orange for Research First Edition

Olarik Surinta

Orange: A Visual Programming Tool for Machine Learning and Data Analytics A Guide to Mastering Orange for Research First Edition

Olarik Surinta Department of Information Technology Faculty of Informatics, Mahasarakham University Maha Sarakham, Thailand

Orange: เครื่องมือส฀฀฀฀หรับก฀฀รโปรแกรมแบบวิชวล ส฀฀฀฀หรับก฀฀รเรียน นรู รู้เครื่องจักรและก฀฀รวิเคร฀฀ะห์ข้อมูล คู่มือก฀฀รเรียนรู้ Orange ส฀฀฀฀หรับก฀฀รท฀฀฀฀วิจัย

โอฬ฀฀ริก สุรินต๊ะ ส฀฀ข฀฀วิช฀฀เทคโนโลยีส฀฀รสนเทศ คณะวิทย฀฀ก฀฀รส฀฀รสนเทศ มห฀฀วิทย฀฀ลัยมห฀฀ส฀฀รค฀฀ม มห฀฀ส฀฀รค฀฀ม ประเทศไทย

ค฀฀฀฀น฀฀฀฀ ด้ว ยคว฀฀มก฀้฀ วหน฀้฀ ท฀฀งเทคโนโลยีส฀฀รสนเทศ จึง ท฀฀฀฀ให้มีข้อมูลเผยแพร่ผ่฀฀นท฀฀งอินเทอร์เน็ต อย฀่฀งรวดเร็ว เช่น ข้อมูลที่โพสต์ในเฟซบุ๊ค ทวิสเตอร์ หรือต฀฀มเว็บไซต์พันทิป ไม่ว฀่฀จะเป็นข้อมูลที่เป็น ข้อคว฀฀มหรือรูปภ฀฀พ ท฀฀฀฀ให้ผู้คนบ฀฀งกลุ่มต้องก฀฀รที่จะเข฀้฀ถึงข้อมูลเหล฀่฀นั้น เพื่อที่จะน฀฀฀฀ม฀฀วิเคร฀฀ะห์ และ ใช้ข้อมูลเหล฀่฀นั้นให้เกิดประโยชน์ เช่น น฀฀฀฀ม฀฀ช่วยในก฀฀รว฀฀งแผนก฀฀รตล฀฀ด และก฀฀รเจ฀฀ะกลุ่มเป฀้฀ หม฀฀ย จึงท฀฀฀฀ให้เกิดศ฀฀สตร์ใหม่ขึ้นม฀฀เพื่อช่วยในก฀฀รเรียนรู้ และบริห฀฀รจัดก฀฀รข้อมูล เรียกว฀่฀ วิทย฀฀ก฀฀ร ข้อมูล (Data Science) ซึ่ง ในอดีตเร฀฀จะรู้จักกับค฀฀฀฀ว฀่฀ "เหมืองข้อมูล (Data Mining)" และ "ก฀฀รเรียนรู้ เครื่อ งจั ก ร (Machine Learning)" โดยทั้งสองแขนงมุ่งเน้นที่อัลกอริทึมที่จะน฀฀฀฀ม฀฀ใช้เพื่อก฀฀รเรียนรู้ และก฀฀รพย฀฀กรณ์ข้อมูล แต่อยู่บนพื้นฐ฀฀นของก฀฀รค฀฀฀฀นวณด้วยวิธีเดียวกัน ห฀฀กพูดถึงวิทย฀฀ก฀฀รข้อมูล เปรียบได้กับก฀฀รน฀฀฀฀ข้อมูลที่มีอยู่ม฀฀ผ฀่฀นกระบวนก฀฀รวิเคร฀฀ะห์ท฀฀งธุรกิจ เพื่อให้ธุรกิจเกิดคว฀฀มได้เปรียบ ในก฀฀รแข่งขัน ปัจจุบันมีเครื่องมือม฀฀กม฀฀ยที่ส฀฀ม฀฀รถน฀฀฀฀ม฀฀ใช้ในก฀฀รวิเคร฀฀ะห์ข้อมูล โดยโปรแกรม Orange มี ลัก ษณะก฀฀รท฀฀฀฀ง฀฀นแบบ Visualization ท฀฀฀฀ให้ผู้ใช้ง฀฀นส฀฀ม฀฀รถเรียกใช้ง฀฀นได้อย฀่฀งสะดวกและรวดเร็ว โดยไม่จ฀฀฀฀เป็นต้องเขียนโค้ด อีกทั้งยังเป็นโปรแกรมที่ส฀฀ม฀฀รถด฀฀วน์โหลดและใช้ง฀฀นได้ฟรี ผู้เขียนจึงมี วัตถุประสงค์เพื่อเขียนหนังสือคู่มือก฀฀รใช้โปรแกรม Orange เพื่อให้ผู้อ฀่฀นส฀฀ม฀฀รถที่จะอ฀่฀นและปฏิบัติ ต฀฀มขั้นตอนได้อย฀่฀งถูกต้อง

โอฬ฀฀ริก สุรินต๊ะ

ส฀฀รบัญ ก฀฀รติดตั้ง (Installation).........................................................................................................................1 เริ่มต้นใช้ง฀฀น Orange (Getting Started with Orange)...........................................................................5 เปิดดูตัวอย฀่฀ง (Examples)................................................................................................................ 5 เปิดไฟล์เก฀่฀ (Open).......................................................................................................................... 7 สร฀้฀งไฟล์ใหม่ (New)........................................................................................................................8 กล่องเครื่องมือ (Toolbox)............................................................................................................... 10 ไฟล์และต฀฀ร฀฀งข้อมูล (File and Data Table)........................................................................................13 ตัวอย฀่฀งไฟล์และต฀฀ร฀฀งข้อมูล (Example of File and Data Table)...................................................13 เพิ่มไอคอน Visualize (Add Visualize Icon)................................................................................... 16 ก฀฀รแสดงข้อมูลเชิงโต้ตอบ (Interactive Visualizations)......................................................................19 ก฀฀รแสดงข้อมูลย่อย (Visualizations of Data Subsets)........................................................................ 23 ก฀฀รแสดงร฀฀ยละเอียดข้อมูล (Data Information)................................................................................. 27 ก฀฀รแสดงก฀฀รกระจ฀฀ยข้อมูล (Data Distributions)............................................................................... 29 ก฀฀รประมวลผลข้อมูลเบื้องต้น (Data Preprocessing)........................................................................... 33 ต้นไม้จ฀฀฀฀แนก (Classification Tree)..................................................................................................... 37 ก฀฀รวิเคร฀฀ะห์องค์ประกอบหลัก (Principal Component Analysis: PCA)..............................................43 แสดง Principal Component ที่ดีที่สุด (Present Best Principal Components)..................................46 ก฀฀รเลือกจ฀฀฀฀นวน Principal Component ที่ใช้ในก฀฀รค฀฀฀฀นวณ (Selecting the Number of Principal Components)..................................................................................................................................49 ก฀฀รเรียกดูค฀่฀ของ Principal Component (Show Value of Principal Components).........................50 ก฀฀รเรียงตัวแปรต฀฀มล฀฀฀฀ดับคว฀฀มส฀฀฀฀คัญ (Feature Ranking).................................................................. 51 ก฀฀รเพิ่มไอคอน Data Table (Add Data Table Icon)........................................................................52 ก฀฀รสร฀้฀งก฀฀รเชื่อมต่อเส้นระหว฀่฀งไอคอน (Create New Link to Icons).......................................... 57 ก฀฀รแบ่งข้อมูลเพื่อทดสอบประสิทธิภ฀฀พของโมเดล (Cross-Validation)...............................................61 Cross Validation.............................................................................................................................64 Random Sampling..........................................................................................................................66 Leave One Out............................................................................................................................... 67 Confusion Matrix................................................................................................................................69 K-Nearest Neighbor (KNN)............................................................................................................... 71 ก฀฀รพย฀฀กรณ์ด้วยวิธี KNN (KNN Prediction)............................................................................... 77 KNN Parameter Tuning (ก฀฀รปรับค฀่฀พ฀฀ร฀฀มิเตอร์ของ KNN)........................................................ 80 ก฀฀รวิเคร฀฀ะห์ก฀฀รถดถอย (Linear Regression).....................................................................................83 K-Means Clustering............................................................................................................................87 Interactive k-Means............................................................................................................................ 93 ก฀฀รติดตั้งโปรแกรม Add-on (Installing Add-on Program).............................................................93 ก฀฀รสร฀้฀งข้อมูลด้วยไอคอน Paint Data (Creating Data using Paint Data Icon)..............................94 Support Vector Machine (SVM).........................................................................................................97 Kernel Function ที่ใช้ใน SVM (SVM Kernel Functions)..............................................................98 Neural Network................................................................................................................................ 105 Deep Neural Network.................................................................................................................. 109 ก฀฀รวิเคร฀฀ะห์รูปภ฀฀พ (Image Analytics)............................................................................................ 111 Deep Convolutional Neural Network (Deep CNN)..................................................................... 116 Inception v3................................................................................................................................. 116 VGG-16........................................................................................................................................118

VGG-19........................................................................................................................................119 ก฀฀รจัดหมวดหมู่รูปภ฀฀พใบหน฀้฀ (Face Image Classification)............................................................ 121 OpenFace..................................................................................................................................... 123

ส฀฀ม฀฀รถด฀฀วน์โหลดตัวอย฀่฀งโปรแกรม และหนังสือเล่มนี้ ได้จ฀฀กเว็บไซต์ github https://github.com/mrolarik/Orange-visualprogramming

ก฀฀รติดตั้ง (Installation)



ส฀฀ม฀฀รถด฀฀วน์โหลด Orange ได้จ฀฀กเว็บไซต์ https://orange.biolab.si



คลิกที่เมนู Download หรือที่ปุ่ม Download Orange



ส฀฀ม฀฀รถเลือกด฀฀วน์โหลดโปรแกรมได้ทั้งหมด 3 OS ประกอบด้วย Windows, macOS และ Linux / Source เมื่อเลือก OS เสร็จเรียบร้อย จ฀฀กนั้นให้เลือกที่ Download Orange



2 Orange: A Visual Programming Tool for Machine Learning and Data Analytics • •

จ฀฀กนั้นไฟล์โปรแกรมที่ด฀฀วน์โหลดจะถูกเก็บไว้ที่โฟลเดอร์ Downloads ตัวอย฀่฀งได้ด฀฀วน์โหลดไฟล์ของ macOS โดยไฟล์ชื่อ Orange3-3.140.dmg โดยที่ 3.14.0 คือ version ของโปรแกรม orange ที่ได้ด฀฀วน์โหลด

• •

จ฀฀กนั้นให้ดับเบิ้ลคลิกที่ไฟล์ Orange3-3.14.0.dmg เพื่อติดตั้งโปรแกรม เมื่อติดตั้งเสร็จเรียบร้อยส฀฀ม฀฀รถเปิดโปรแกรมขึ้นม฀฀ใช้ง฀฀น โดยโปรแกรมที่ติดตั้งเรียกว฀่฀ Orange3

A Guide to Mastering Orange for Research 3



เมื่อคลิกเปิดโปรแกรมจะแสดงโลโก้ของโปรแกรม



เมื่อแสดงโลโก้ของโปรแกรมเสร็จเรียบร้อยจะเปิดโปรแกรม Orange เพื่อให้ใช้ง฀฀น

4 Orange: A Visual Programming Tool for Machine Learning and Data Analytics

เริ่มต้นใช้ง฀฀น Orange (Getting Started with Orange) •

เมื่อเรียกโปรแกรม Orange จะแสดงหน฀้฀ต฀่฀ง Welcome to Orange Data Mining



จ฀฀กหน฀้฀ต฀่฀ง Welcome to Orange Data Mining ส฀฀ม฀฀รถเลือกเมนูต฀่฀ง ๆ เช่น ◦ สร฀้฀งไฟล์ใหม่ (New) ◦ เปิดไฟล์เก฀่฀ (Open) ◦ เปิดไฟล์ล฀่฀สุด (Recent) ◦ เปิดดูตัวอย฀่฀ง (Examples)

เปิดดูตัวอย฀่฀ง (Examples) •

ในกรณีที่คลิกที่ Examples จะปร฀฀กฎตัวอย฀่฀งในก฀฀รท฀฀฀฀ง฀฀นของโปรแกรม Orange ดังตัวอย฀่฀ง ต่อไปนี้

6 Orange: A Visual Programming Tool for Machine Learning and Data Analytics

A Guide to Mastering Orange for Research 7



เมื่อเลือกตัวอย฀่฀งที่ต้องก฀฀ร ให้คลิกที่ปุ่ม Open เพือเปิดดูตัวอย฀่฀งนั้น

เปิดไฟล์เก฀่฀ (Open) •

ห฀฀กต้องก฀฀รเปิดไฟล์เดิมที่มีอยู่แล้วส฀฀ม฀฀รถคลิกที่ Open

8 Orange: A Visual Programming Tool for Machine Learning and Data Analytics

• •

เมื่อคลิกที่ปุ่ม Open โปรแกรมจะให้เลือกไฟล์ของโปรแกรม Orange ซึ่งไฟล์จะมีน฀฀มสกุล .ows จ฀฀กนั้นคลิกที่ปุ่ม Open เพื่อเปิดไฟล์ที่ต้องก฀฀รจะท฀฀฀฀ง฀฀น

สร฀้฀งไฟล์ใหม่ (New) • •



ห฀฀กต้องก฀฀รสร฀้฀งไฟล์ใหม่ส฀฀ม฀฀รถคลิกที่ New เมื่อคลิกที่ New จ฀฀กนั้นจะปร฀฀กฎหน฀้฀ต฀่฀ง Workflow Info ให้พิมพ์ร฀฀ยละเอียดของโปรเจคที่ ต้องก฀฀รจะท฀฀฀฀ง฀฀น ประกอบด้วย Title และ Description ◦ Title - ชื่อของโปรเจค ◦ Description – ร฀฀ยละเอียดของโปรเจค เมื่อพิมพ์ร฀฀ยละเอียดที่ต้องก฀฀รให้คลิกที่ปุ่ม OK เพื่อเริ่มต้นก฀฀รท฀฀฀฀ง฀฀น

A Guide to Mastering Orange for Research 9



เมื่อคลิกที่ OK จะปร฀฀กฎโปรแกรม Orange ที่พร้อมท฀฀฀฀ง฀฀น

10 Orange: A Visual Programming Tool for Machine Learning and Data Analytics

กล่องเครื่องมือ (Toolbox) Data

Visualize

Model

A Guide to Mastering Orange for Research 11

Evaluate

Unsupervised

12 Orange: A Visual Programming Tool for Machine Learning and Data Analytics

ไฟล์และต฀฀ร฀฀งข้อมูล (File and Data Table) ตัวอย฀่฀งไฟล์และต฀฀ร฀฀งข้อมูล (Example of File and Data Table) •

คลิกที่เมนู Help > Examples โปรแกรม Orange จะเปิดตัวอย฀่฀งของก฀฀รใช้โปรแกรม



จ฀฀กนั้นให้เลือกที่ File and Data Table และกดที่ปุ่ม Open

14 Orange: A Visual Programming Tool for Machine Learning and Data Analytics



เมื่อคลิกที่ Open จะปร฀฀กฎตัวอย฀่฀งก฀฀รใช้ง฀฀นไอคอน (Icon) หรือวิดเจท (Widget) File และ Data Table

จ฀฀กตัวอย฀่฀งเริ่มต้นโดย • ดับเบิ้ลคลิกที่ไอคอน File จ฀฀กนั้นจะปร฀฀กฎหน฀้฀ต฀่฀งที่แสดงชุดข้อมูล (Dataset) ◦ ในตัวอย฀่฀งนี้จะเป็นชุดข้อมูลที่ชื่อ iris ซึ่งเป็นชุดข้อมูลดอกไม้ที่ประกอบไปด้วย 4 attribute และ 3 class

A Guide to Mastering Orange for Research 15

• •

ห฀฀กต้องก฀฀รเลือกข้อมูลชุดอื่นส฀฀ม฀฀รถท฀฀฀฀ได้โดยคลิกที่รูปโฟลเดอร์ จ฀฀กนั้นจะปร฀฀กฎหน฀้฀ต฀่฀งให้เลือกข้อมูลชุดอื่น

• • •

เมื่อเลือกชุดข้อมูลเสร็จเรียบร้อยให้คลิกที่ปุ่ม Open ในกรณีนี้ เลือกใช้ข้อมูลชุด iris จ฀฀กนั้นให้ดับเบิ้ลคลิกที่ไอคอน Data Table จะปร฀฀กฎหน฀้฀ต฀่฀งดังต่อไปนี้

16 Orange: A Visual Programming Tool for Machine Learning and Data Analytics •

โดยหน฀้฀ต฀่฀งจะแสดงข้อมูลทั้งหมดของชุดข้อมูล iris ซึ่งประกอบด้วยข้อมูลทั้งสิ้น 150 ชุด ◦ ข้อมูลแต่ละแถว (Instance) จะประกอบไปด้วย 4 attribute / feature คือ ▪ Sepal length ▪ Sepal width ▪ Petal length ▪ Petal width ◦ ข้อมูลมีทั้งหมด 3 กลุ่ม (Class / Label) ประกอบด้วย ▪ iris-setosa ▪ iris-versicolor ▪ iris-virginica

[ที่ม฀฀: https://rpubs.com/wjholst/322258] ◦

เพิ่มไอคอน Visualize (Add Visualize Icon) • •

จ฀฀กนั้นท฀฀฀฀ก฀฀รเพิ่มไอคอน Visualize เพื่อที่จะดูลักษณะของข้อมูลของ iris dataset ท฀฀฀฀ได้โดยเลือกที่แทป (Tab) Visualize และคลิกที่ไอคอน Scatter Plot จ฀฀กนั้น Scatter Plot จะ ไปปร฀฀กฎใน Workflow ของโปรแกรม

A Guide to Mastering Orange for Research 17



ดับเบิ้ลคลิกที่ไอคอน Scatter Plot เพื่อดูกร฀฀ฟ ◦ โดยกร฀฀ฟแสดงให้เห็นถึงก฀฀รกระจ฀฀ยของข้อมูล

18 Orange: A Visual Programming Tool for Machine Learning and Data Analytics

ก฀฀รแสดงข้อมูลเชิงโต้ตอบ (Interactive Visualizations) • • •

ในส่วนนี้เป็นก฀฀รแสดงให้เห็นถึงวิธีก฀฀รแสดงข้อมูลแบบ Visualization คลิกที่เมนู Help > Examples โปรแกรม Orange จะเปิดตัวอย฀่฀งของก฀฀รใช้โปรแกรม ให้คลิกเลือก Interactive Visualizations และคลิกที่ปุ่ม Open



เมื่อคลิกที่ Open จะปร฀฀กฎตัวอย฀่฀งก฀฀รใช้ง฀฀น Interactive Visualizations ดังตัวอย฀่฀งต่อไปนี้

20 Orange: A Visual Programming Tool for Machine Learning and Data Analytics

ขั้นตอนในก฀฀รท฀฀฀฀ Interactive Visualizations ท฀฀฀฀ได้ด ังต่อไปนี้ • ดับเบิ้ลคลิกที่ไอคอน File เพื่อเลือกชุดข้อมูลที่ต้องก฀฀รใช้ง฀฀น ◦ ตัวอย฀่฀งก฀฀฀฀หนดให้ใช้ชุดข้อมูล iris



ขั้นตอนต่อไปดับเบิ้ลคลิกที่ไอคอน Scatter Plot โปรแกรมจะแสดงหน฀้฀ต฀่฀งเพื่อแสดงข้อมูล แบบ Visualization

A Guide to Mastering Orange for Research 21



จ฀฀กหน฀้฀ต฀่฀งข฀้฀งต้นส฀฀ม฀฀รถ คลิกข้อมูลแต่ละจุด หรือ ใช้เม฀฀ส์คลิกเพื่อเลือกข้อมูลแบบกลุ่ม ◦ ตัวอย฀่฀งแสดงให้เห็นถึงก฀฀รเลือกข้อมูลบ฀฀งส่วน จ฀฀กนั้นให้คลิกเพื่อปิดหน฀้฀ต฀่฀ง

22 Orange: A Visual Programming Tool for Machine Learning and Data Analytics •

จ฀฀กนั้นดับเบิ้ลคลิกที่ไอคอน Data Table ◦ โปรแกรมจะเปิดหน฀้฀ต฀่฀ งเพื่อแสดงข้อมูลที่ได้เลือกไว้ในขั้นตอน Scatter Plot

ก฀฀รแสดงข้อมูลย่อย (Visualizations of Data Subsets) • • •

ในส่วนนี้แสดงให้เห็นถึงก฀฀ร Visualization ของชุดข้อมูลย่อย คลิกที่เมนู Help > Examples โปรแกรม Orange จะเปิดตัวอย฀่฀งของก฀฀รใช้โปรแกรม ให้คลิกเลือก Visualization of Data Subsets และคลิกที่ปุ่ม Open



เมื่อคลิกที่ Open จะปร฀฀กฎตัวอย฀่฀งก฀฀รใช้ง฀฀น Visualization of Data Subsets ดังตัวอย฀่฀งต่อไป นี้

24 Orange: A Visual Programming Tool for Machine Learning and Data Analytics

ขั้นตอนในก฀฀รท฀฀฀฀ Visualization of Data Subsets ท฀฀฀฀ได้ดังต่อไปนี้ • ดับเบิ้ลคลิกที่ไอคอน File เพื่อเลือกชุดข้อมูลที่ต้องก฀฀รใช้ง฀฀น ในตัวอย฀่฀งใช้ข้อมูล iris • ดับเบิ้ลคลิกที่ไอคอน Data Table และเลือกข้อมูลที่ต้องก฀฀รน฀฀฀฀ไป Visualization

A Guide to Mastering Orange for Research 25



ดับเบิ้ลคลิกที่ เส้นเชื่อมต่อระหว฀่฀ง Data Table และ Scatter Plot ◦ ให้สังเกตก฀฀รเชื่อม (Link) ข้อมูลระหว฀่฀ง Data Table และ Scatter Plot



สุดท฀้฀ย ดับเบิ้ลคลิกที่ Scatter Plot เพื่อดูข้อมูลชุดย่อยที่ได้เลือกไว้

26 Orange: A Visual Programming Tool for Machine Learning and Data Analytics

ก฀฀รแสดงร฀฀ยละเอียดข้อมูล (Data Information) •

ห฀฀กต้องก฀฀รทร฀฀บร฀฀ยละเอียด (Information) ของข้อมูลที่น฀฀฀฀ม฀฀ใช้ง฀฀น ส฀฀ม฀฀รถท฀฀฀฀ได้โดยเลือก ที่ไอคอน Data Info โดยท฀฀฀฀ต฀฀ม workflow ดังต่อไปนี้

28 Orange: A Visual Programming Tool for Machine Learning and Data Analytics

ก฀฀รแสดงก฀฀รกระจ฀฀ยข ก฀฀รแสดงก฀฀รกระจ฀฀ยข้้อมูล (Data Distributions)



โปรแกรม Orange มีเครื่องมือ (Tool) ที่ช่วยให้ผู้ใช้ง฀฀นส฀฀ม฀฀รถดูก฀฀รกระจ฀฀ยของข้อมูล เช่น จ฀฀฀฀นวนของข้อมูลในแต่ละ Class จ฀฀฀฀นวนของข้อมูลในแต่ละ Attribute เป็นต้น ผู้ใช้ง฀฀นส฀฀ม฀฀รถเห็นข้อมูลในลักษณะ Visualize ท฀฀฀฀ให้เข฀้฀ใจลักษณะของข้อมูลม฀฀กขึ้น



ก฀฀รกระจ฀฀ยข้อมูล ส฀฀ม฀฀รถท฀฀฀฀ได้ดัง workflow ต่อไปนี้

• • •

ในกรณีนี้ ข้อมูลที่น฀฀฀฀ม฀฀ใช้เพื่อแสดงก฀฀รกระจ฀฀ยคือชุดข้อมูล iris ผู้ใช้ง฀฀นส฀฀ม฀฀รถดับเบิ้ลคลิกที่ไอคอน File และเลือกชุดข้อมูลที่ต้องก฀฀รแสดงได้ต฀฀มต้องก฀฀ร จ฀฀กนั้นดับเบิ้ลคลิกที่ไอคอน Distributions จะปร฀฀กฎหน฀้฀ต฀่฀งดังตัวอย฀่฀งต่อไปนี้



ตัวอย฀่฀งข฀้฀งต้น แสดงให้เห็นถึงก฀฀รกระจ฀฀ยข้อมูลของ Attribute ที่ชื่อ Sepal Length ท฀฀฀฀ให้รู้ถึง ช่วงคว฀฀มกว฀้฀งของ Sepal (Sepal Length) ของดอกไม้ iris ในแต่ละส฀฀ยพันธุ์ (Setosa, Versicolor และ Virginica) เป็นต้น



30 Orange: A Visual Programming Tool for Machine Learning and Data Analytics •

ตัวอย฀่฀งต่อไปแสดงให้เห็นถึงจ฀฀฀฀นวนของส฀฀ยพันธุ์ดอกไม้ iris ในแต่ละ Class โดยในชุดข้อมูล iris มีจ฀฀฀฀นวนดอกไม้ 150 ดอก แบ่งออกเป็น 3 Class และมี Class ละ 50 ดอก

A Guide to Mastering Orange for Research 31



ตัวอย฀่฀งต่อไปนี้ แสดงให้เห็นถึงก฀฀รกระจ฀฀ยข้อมูลของสัตว์แต่ละประเภท

32 Orange: A Visual Programming Tool for Machine Learning and Data Analytics

ก฀฀รประมวลผลข้อมูลเบื้องต้น (Data Preprocessing)



ก฀฀รประมวลผลข้อมูลเบื้องต้น คือก฀฀รเตรียมข้อมูลให้พร้อมส฀฀฀฀หรับก฀฀รเรียนรู้ เช่น ◦ บ฀฀งครั้งข้อมูลที่จะน฀฀฀฀ม฀฀ใช้มีข้อมูลบ฀฀งส่วนที่สูญห฀฀ยไป เรียกว฀่฀ Missing Value ◦ ข้อมูลที่จะน฀฀฀฀ม฀฀ใช้ยังไม่ผ฀่฀นก฀฀ร Normalize ให้อยู่ในช่วงข้อมูลเดียวกัน ◦ ข้อมูลที่น฀฀฀฀ม฀฀ใช้มีจ฀฀฀฀นวน Feature/Attribute เยอะจนเกินไป อ฀฀จต้องใช้วิธีก฀฀ร เช่น เลือก Feature ที่มีคว฀฀มสัมพันธ์ (Relevant) หรือใช้วิธี PCA เพื่อห฀฀ Component ที่เหม฀฀ะสมที่สุด



ตัวอย฀่฀งต่อไปนี้ เป็นก฀฀รประมวลผลข้อมูลเบื้องต้น โดยก฀฀ร Normalize ข้อมูล Feature ส฀฀ม฀฀รถ ท฀฀฀฀ได้ดัง workflow ต่อไปนี้



ตัวอย฀่฀งเลือกใช้ข้อมูล iris ในก฀฀รทดสอบ ส฀฀ม฀฀รถท฀฀฀฀ได้โดยดับเบิ้ลคลิกที่ไอคอน File และ เลือกที่ข้อมูล iris ดับเบิ้ลคลิกที่ไอคอน Data Table เพื่อดูชุดข้อมูล iris ก่อนก฀฀รเปลี่ยนแปลง



34 Orange: A Visual Programming Tool for Machine Learning and Data Analytics



จ฀฀กนั้นดับเบิ้ลคลิกที่ไอคอน Preprocess

A Guide to Mastering Orange for Research 35

• •

จ฀฀กตัวอย฀่฀งข฀้฀งต้น ได้เลือกใช้วิธีก฀฀ร Preprocess ด้วยวิธีก฀฀ร Normalize ข้อมูล ◦ วิธีก฀฀รเลือกคือใช้เม฀฀ส์คลิก วิธีก฀฀รท฀฀งฝั่งซ฀้฀ย และน฀฀฀฀ม฀฀ว฀฀งหน฀้฀ต฀่฀งท฀฀งฝั่งขว฀฀มือ จ฀฀กนั้นดับเบิ้ลคลิกที่ไอคอน Data Table (1) เพื่อดูก฀฀รเปลี่ยนแปลงของข้อมูล

36 Orange: A Visual Programming Tool for Machine Learning and Data Analytics

ต้นไม้จ฀฀฀฀แนก (Classification Tree) • • •

ในส่วนนี้แสดงให้เห็นถึงวิธีก฀฀รจ฀฀฀฀แนก (Classification) ข้อมูลด้วยวิธีต้นไม้ (Tree) คลิกที่เมนู Help > Examples โปรแกรม Orange จะเปิดตัวอย฀่฀งของก฀฀รใช้โปรแกรม ให้คลิกเลือก Classification Tree และคลิกที่ปุ่ม Open



เมื่อคลิกที่ Open จะปร฀฀กฎตัวอย฀่฀งก฀฀รใช้ง฀฀น Classification Tree ดังตัวอย฀่฀งต่อไปนี้

38 Orange: A Visual Programming Tool for Machine Learning and Data Analytics

ขั้นตอนในก฀฀รท฀฀฀฀ Classification Tree ท฀฀฀฀ได้ดัง ต่อไปนี้ • ดับเบิ้ลคลิกที่ไอคอน File เพื่อเลือกชุดข้อมูลที่ต้องก฀฀รใช้ง฀฀น ในตัวอย฀่฀งใช้ข้อมูล iris • ดับเบิ้ลคลิกที่ไอคอน Scatter Plot เพื่อดูข้อมูลแบบ Visualize • ดับเบิ้ลคลิกที่ไอคอน Classification Tree จะปร฀฀กฎหน฀้฀ต฀...


Similar Free PDFs