Bai Mau Du Lieu Thu Cap - Mẫu KHDL PDF

Title Bai Mau Du Lieu Thu Cap - Mẫu KHDL
Author HA DANG THI THU
Course Management Science
Institution Trường Đại học Kinh tế Thành phố Hồ Chí Minh
Pages 20
File Size 1.3 MB
File Type PDF
Total Downloads 352
Total Views 724

Summary

TRƯỜNG ĐẠI HỌC KINH TẾ TP .HCMKHOA CÔNG NGHỆ THÔNG TIN KINH DOANH-----  -----BÁO CÁO CUỐI KỲỨng dụng máy học vào phân nhóm và dự đoángiá phòng cho thuê Airbnb tại Mỹ năm 2020Môn học : Khoa học dữ liệu - 21D1INFGiảng viên : Ths. Nguyễn Mạnh TuấnSinh viên t hực hiện: Nguyễn Phương Linh - 31171021...


Description

TRƯỜNG ĐẠI HỌC KINH TẾ TP.HCM KHOA CÔNG NGH Ệ THÔNG TIN KINH DOANH

-----      -----

BÁO CÁO CU Ố I K Ỳ Ứng dụng máy học vào phân nhóm và dự đoán giá phòng cho thuê Airbnb t ạ i M ỹ năm 2020

Môn h ọc: Khoa h ọ c d ữ liệ u - 21D1INF50905914 Giảng viên : Ths. Nguy ễ n M ạ nh Tu ấn Sinh viên th ự c hi ện: Nguyễn Phương Linh - 31171021011

TP. H ồ Chí Minh 06/2021

1

DANH M Ụ C BI ỂU ĐỒ Biểu Biểu Biểu Biểu Biểu Biểu

đồ đồ đồ đồ đồ đồ

1 2 3 4 5 6

Dữ liệu Data theo giá và loại phòng ----------------------------- 11 Số lượng phòng cho thuê theo lo ại căn hộ ---------------------- 12 Số lượng phòng cho thuê theo thành phố ----------------------- 12 Tỷ lệ phân bố các loại phòng cho thuê theo khu vực ---------- 12 Minh họa Sihouette Plot ------------------------------------------ 19 Minh họa Scatter Plot (Pri ce/Avalibility_365) ----------------- 19

DANH M Ụ C HÌNH ẢNH Hình Hình Hình Hình Hình Hình Hình Hình Hình Hình

1: Mô hình phân l ớ p d ữ liệ u -------------------------------------------- 6 2 Ví d ụ sơ đồ cây quy ết định ------------------------------------------- 7 3 Sơ đồ t ổ ng quát SVM -------------------------------------------------- 7 4 Ví d ụ sơ đồ kNN ------------------------------------------------------- 8 5 Mô hình phân c ụ m d ữ liệ u -------------------------------------------- 8 6 Mô hình bài toán 1 ---------------------------------------------------- 14 7 K ế t qu ả d ự báo (1) ---------------------------------------------------- 15 8 Mô hình bài toán 2 ---------------------------------------------------- 16 9 K ế t qu ả d ự báo (2) ---------------------------------------------------- 17 10 Mô hình bài toán 3 -------------------------------------------------- 18

DAN H M Ụ C B Ả NG Bảng Bảng Bảng Bảng Bảng Bảng

1 2 3 4 5 7

Mô tả biến ------------------------------------------------------------- 10 K ế t qu ả Test & Score (1) -------------------------------------------- 14 K ế t qu ả Confusion Matrix (1) --------------------------------------- 15 K ế t qu ả Test & Score (2) -------------------------------------------- 16 K ế t qu ả Confusion Matrix (2) --------------------------------------- 17 K ế t qu ả k-Means ------------------------------------------------------ 18

2

MỤC L Ụ C CHƯƠN G I: TỔN G QUAN --------------------------------------------------------- 4 1.1 L Ý DO CH ỌN ĐỀ T ÀI ----------------------------------------------------------- 4 1.1.1 Mục tiêu ng hiên c ứ u ----------------------------------------------------- 4 1.1.2 Đối tượng nghiên c ứu --------------------------------------------------- 4 1.2 M Ô T Ả BÀI T OÁN -------------------------------------------------------------- 5 1.3 M Ô T Ả PHƯƠNG PHÁP --------------------------------------------------------- 6 1.3.1 Phương pháp phân lớp (Cla ssification) ------------------------------- 6 1.3.2 Phương pháp phân c ụm (Clustering) ---------------------------------- 8 1.4 M Ô T Ả D Ữ LIỆU -------------------------------------------------------------- 10 CHƯƠN G II: QUY TRÌN H THỰC HIỆN & KẾT QU Ả --------------------- 11 2.1 P HÂN T ÍCH VÀ T I Ề N X Ử L Ý D Ữ LIỆU ---------------------------------------- 11 2.1.1 Phân tích d ữ liệ u ------------------------------------------------------ 11 2.1.2 Tiền x ử lý d ữ liệ u ------------------------------------------------------ 13 2.2 B ÀI TOÁN 1: D Ự ĐOÁN PHÂN LO ẠI ĐỐI TƯ ỢNG CHO THUÊ THE O L OẠI PHÒNG C ỦA A IRBNB H OA K Ỳ T HÁNG 10/2020. -------------------------------- 14 2.2.1 Quy trình th ự c hi ện: --------------------------------------------------- 14 2.2.2 Đánh giá và k ết qu ả --------------------------------------------------- 14 2.3 B ÀI TOÁN 2: D Ự BÁO GIÁ PHÒNG CHO THUÊ L O ẠI “H OT E L ROOM ”------ 16 2.3.1 Quy trình th ự c hi ện: --------------------------------------------------- 16 2.3.2 Đánh giá và k ết qu ả --------------------------------------------------- 16 2.4 B ÀI TOÁN 3: P HÂN CỤM CÁC PHÒNG CHO T HUÊ L OẠI “S HARE D ROOM ” 18 2.4.1 Quy trình th ự c hi ện: --------------------------------------------------- 18 2.4.2 Đánh giá & k ết qu ả --------------------------------------------------- 18 TÀI LI Ệ U THAM KH Ả O --------------------------------------------------------- 20

3

CHƯƠN G I: TỔNG QUAN 1.1 Lý do ch ọn đ ề tài Từ khi đư ợ c th ành l ập năm 2008, Airbnb phát triể n mạnh mẽ v à tha y đổi c ách vận h ành truy ề n th ố ng c ủ a ngành khách s ạ n trê n th ế giới. N gày càng nhi ề u du khách lựa ch ọn Airbnb là nơi tìm kiếm địa điểm tá túc khi đi du lịch. Airbnb đặ c bi ệ t cung cấp cho khách du l ịch p hương th ứ c tìm ki ếm nơi lư u trú d ễ dàng – độc đáo – cá nh ân hóa hơn. Đặc biệt, Airbnb có độ phủ sóng cao và là phư ơng ti ệ n tra cứu quen th uộc của khách du l ịch có nhu c ầu nghỉ dưỡ ng h o ặ c trả i nghi ệ m vă n hó a ở M ỹ . Vì v ậ y, phân tích s ố liệ u phòng cho thuê t ạ i Airbnb Hoa K ỳ - m ộ t kh ía c ạnh nào đó – có th ể nhận bi ết nhu c ầ u và x u hướ ng th ự c t ế c ủ a khách du l ị ch đối vớ i t ừ ng lo ạ i phòng ở ho ặc từn g địa phương. Ngoài ra, d ữ liệ u v ề giá cho thuê d ự a trên cung – c ầ u th ự c t ế c ủ a khách thuê t ại Airbnb c ó th ể s ử d ụng để dự báo ho ặc đưa ra mức đị nh giá h ợp lý cho các đối tượng cho thuê tương ứ ng. Quan tr ọ ng, b ộ d ữ liệ u v ề nh à ở cho thuê c ủ a Airbnb qua các năm đư ợ c cung cấp c ông khai và phi thư ơng mạ i bởi bên thứ ba: http://in sideairbnb. com/. Điều này giúp sinh v iên thu th ậ p nhanh c hóng và ch ính xác n gu ồn dữ liệ u t ừ thự c t ế . Từ những lý do trên, sinh viên l ự a c h ọn đề tài “Ứng d ụ ng máy h ọ c vào phân nhóm và d ự đoán giá của phòng cho thuê Airbnb t ại Mỹ năm 202 0” làm b áo cáo kết thúc môn học. 1.1.1 Mục tiêu nghiên cứu Ba m ụ c tiêu chín h c ủa đề tài tư ơng ứ ng v ớ i ba bài toán c ầ n g i ả i quy ết: Dự đoá n ph ân lo ạ i đối tượ ng theo nhóm 4 loại phòng có trong A irbnb giúp khách hà ng d ễ dàng tìm ki ế m lo ạ i phòng phù h ợ p theo nhu c ầu. Định kho ả ng giá cho các đối tư ợ ng cho thuê lo ạ i phòng “Hotel room” trong Airbnb theo các tiêu chí có s ẵn - giú p ngư ờ i cho thuê l ự a ch ọ n m ứ c giá c ho thuê phù h ợ p v ớ i th ị trườ ng. Gom c ụm các đối tư ợ ng cho thuê lo ại phòng “Shared home” tồ n t ạ i trên hệ thống c ủ a Airbnb – để doanh nghi ệ p có th ể phá t tri ể n thêm nh ữ ng d ị ch v ụ tăng cường riêng cho từng nhóm khách hàng. 1.1.2 Đối tượng nghiên cứu Sử d ụ ng b ộ d ữ liệu bao g ồ m các thông tin công khai v ề da nh sách cho thuê trên Airbnb t ạ i các thà nh ph ố ở Hoa K ỳ mà insideairbnb.com cung c ấ p.

4

1.2 Mô t ả b ài toán Sử d ụng Excel và phần m ềm Orang e để x ử lý d ữ liệu và gi ả i quy ế t các bài toán sau: Bài toán 1: D ự đoán phân đ ối tượ ng cho thuê theo lo ạ i phòng c ủ a Airbnb Hoa K ỳ (bài toán phân l ớp đa lớ p) Bài toán 2: D ự báo giá phòng cho thuê lo ại “Ho tel room” (bài toán phân lớp đa lớp) Bài toán 3: Phân c ụ m các phòng cho thuê lo ại “Shared room” (bài toán gom c ụm dữ liệ u).

5

1.3 Mô t ả phư ơng pháp 1.3.1 Phương pháp phân lớp (C lassification) Phân l ớ p d ữ liệ u là quá trình phân m ột đối tư ợ ng d ữ liệ u vào m ộ t hay nhi ề u l ớp (loại) đã cho trư ớ c nhờ một mô hình p hân l ớ p. Mô hìn h này đã đư ợ c xâ y dựng dựa trên m ộ t t ậ p d ữ liệu đã đượ c gán nhãn trư ớc đó. Quá trình gán nhãn cho m ột đối tượng dữ liệu c hính là q uá trình ph ân l ớp.

Hì n h 1 : M ô h ì n h p h â n l ớ p d ữ l i ệ u

Quá trình p hân l ớp dữ liệ u g ồm 3 bướ c: Bước 1: Xây d ựn g mô hình (giai đo ạ n “huấn luy ện”). • Dữ liệu đầu vào là dữ liệu m ẫu đã đượ c gán nhãn và ti ền xử lý. • Các thu ậ t toán phân l ớ p: Cây quy ết đị nh, SVM , … • Kết qu ả c ủa bướ c này là mô hình phân l ớp đã đượ c hu ấ n luy ệ n (trình phân lớp). Bước 2: Đánh giá mô hình (ki ểm tra tính đúng đ ắ n) • Dữ liệu đầu vào: là một tập dữ liệu m ẫu khác đã đư ợ c g ắ n nhãn và ti ền xử lý. Tuy nhiên lú c đưa vào mô hình phân l ớp, ta sẽ “lờ” đi thuộc tình đã được gắn nhãn. • Tính đúng đắ n của mô hình sẽ đư ợc xác đị nh b ằng cách so sánh thu ộc tính gắn n hãn của dữ liệu đầu vào và k ế t qu ả phân l ớ p mô h ình. Bước 3: Phân l ớ p d ữ liệu m ớ i Phân lo ạ i bài toán phân l ớp: Nhiệm v ụ c ủ a bài toán phân l ớ p là phân lo ại đ ối tượng dữ liệu vào n l ớ p cho trư ớ c n ếu: • n = 2: Thu ộ c bài toán phân l ớ p n h ị phân.

6

• n > 2: Thu ộ c bài toán phân l ớp đa lớp. Các phương p háp phân lớp được sử dụng tron g bài: Cây quy ết đị n h (Decision Tree ): Trong lý thuy ế t qu ả n tr ị , cây quy ết đị nh là đồ thị các quy ết đị nh c ùng các k ết quả kh ả d ĩ đi kèm nhằ m hỗ trợ qu á trình ra quyết định. Trong lĩnh v ự c kh ai thá c d ữ liệu, câ y qu yết đ ịnh là phư ơng pháp mô tả , phân lo ạ i và t ổ ng quát hóa t ậ p d ữ liệu cho trướ c.

Hì n h 2 V í d ụ s ơ đ ồ câ y q u y ế t đ ị n h

SVM (Support Vec tor Machine) là m ộ t thu ậ t toán có giám sát, SVM nh ận dữ liệu vào, xem chúng như các vector trong không gian và phân lo ại chún g vào các lớp khác nhau b ằ ng cách xây d ự ng m ộ t siê u ph ẳ n g trong không gian n hi ề u chi ề u làm mặt ph ân cách các l ớ p d ữ liệu. Để t ối ưu kế t quả phân lớp thì phải xá c đị n h siêu phẳng (hyperplane) có kho ảng cách đ ến các điể m d ữ liệ u (margin) c ủ a t ấ t c ả các l ớp xa nh ấ t có th ể . SVM có n hi ề u bi ế n th ể để ph ù h ợ p v ớ i nhi ề u bà i toán phân lo ạ i khác nhau.

Hì n h 3 S ơ đ ồ t ổ n g q u á t S V M

7

KNN (K-nearsest neighbor) là thu ật toán đơn giả n nh ấ t trong nh ữ ng th u ật toán supervised- lea rning nhưng lạ i hi ể u q u ả tro ng m ộ t s ố trườ ng h ợ p. Thu ậ t toán này không c ầ n h ọ c t ừ d ữ liệ u hu ấ n luy ệ n, khi c ầ n d ự đoán kế t qu ả c ủ a d ữ liệ u m ới thì thu ậ t toán này m ớ i th ự c hi ệ n tính toán. KNN có th ể á p d ụ ng trên c ả hai lo ạ i bài toán phân lo ạ i và h ồ i quy.

Hì n h 4 V í d ụ s ơ đ ồ kN N

1.3.2 Phương pháp phân c ụm (Clustering) Phân c ụ m d ữ liệ u là q uá trình gom c ụm/nhóm các đ ối tượng /dữ liệu có đặ c điểm tương đ ồ ng vào các c ụm/nhóm tư ơng ứng. Trong đó: Các đối tượ ng trong c ùng một cụm sẽ có những tính ch ất tương tự nhau. Các đối tượng thuộc cụm/nhóm khác nhau s ẽ có các tính c h ấ t khác nhau. Lưu ý: D ữ liệu của bài toán phân cụm là dữ li ệu chưa đư ợc gán nhãn. Đây là d ữ liệu t ự nhiên thư ờ ng th ấ y trong th ự c t ế .

Hì n h 5 M ô h ìn h p h â n c ụ m d ữ l i ệ u

Đặ c điểm: Nhiệm v ụ chính là tìm ra và đo đ ạ c s ự khá c bi ệ t g i ữa các đối tượ ng d ữ liệu. Phân c ụ m thu ộc nhóm phương pháp h ọ c không giám sát (unsupervise d learning) vì không bi ết trư ớc đượ c s ố nhóm (khá c v ớ i bài toán phâ n l ớp) Một phương pháp phân c ụ m t ốt là phương p háp tạ o ra các c ụm có chất lượng cao: • Độ tương đồng bên trong c ụm cao

8

Độ tương tự giữa c ác c ụ m th ấ p (khác bi ệ t cao) Các ứ ng d ụ ng điển hình: Công c ụ phân c ụ m d ữ liệu độ c lập. • Là giai đoạn tiền xử lý cho c ác thuật toán khác Độ đo phân c ụm được s ử d ụ ng làm tiêu chí nh ằ m tính toán s ự tương đồ ng hoặc sai bi ệ t gi ữa các đối tư ợ n g d ữ liệ u nh ằ m ph ụ c v ụ cho qu á trình go m c ụm. Mộ t s ố độ đo phân cụm: Euclid , Cosin, Minkowski … Thuật toán K-mean s: Thuộc nhóm thu ậ t toán phâ n c ụ m d ự a trên phâ n ho ạ ch. Tư tưở ng chín h: Ta xem m ỗi đối tượ ng trong tập dữ liệu là m ột điể m trong không gian d chi ề u (v ớ i d là s ố lượ ng thu ộ c tính c ủa đối tượ ng) • •

9

1.4 Mô t ả d ữ liệ u Bộ dữ liệu được tổng hợp từ các tập d ữ liệu v ề nhà ở cho thuê Airbnb t ạ i Hoa Kỳ - được truy xu ấ t t ạ i: http://insideairbnb.c om/. B ộ d ữ liệu đượ c thu th ậ p vào ngày 20 tháng 10 n ăm 2020 b ởi Kritik Seth. Bộ dữ liệu g ồ m c ác thông tin: Thuộc tính id

Ý nghĩa Mã định danh của Airbnb cho đối tượng cho thuê

Mô tả 1 chuỗi ký tự số

Tên của đối tượng cho thuê Mã định danh của Airbnb cho chủ nhà / người cho thuê

1 chuỗi ký chữ

host_name

Tên của chủ nhà/ người cho thuê

1 chuỗi ký chữ

neighbourhood

Tên của khu vực lân cận

latitude longitude

Vĩ độ Kinh độ

room_type

Loại phòng của đối tượng cho thuê

price

Giá phòng mỗi ngày ($) Số đêm lưu trú tối thiểu của đối tượng cho thuê

Số tiền (USD)

number_of_reviews

Số lượng đánh giá của đối tượng cho thuê

Số tự nhiên

reviews_per_month

Số lượt đánh giá trung bình mỗi tháng

Số thập phân

calculated_host_listings_count

Số lượng phòng cho thuê cùng thành phố mà chủ nhà sở hữu có trong danh sách hiện tại

Số tự nhiên

availability_365

Tính khả dụng (ngày): Một máy chủ Airbnb có thể thiết lập lịch cho danh sách của họ để nó chỉ có sẵn trong vài ngày hoặc vài tuần trong năm.

Số tự nhiên

city

Thành phố tại nơi cho thuê

Asheville, Austin, Boston, Broward County, Chicago, Clark County, Columbus, Denver, Hawaii, Cambridge

valuation

Khoảng định giá phòng / ngày (chỉ có trong sheet "HR")

< $130; [ $130 ; $190 ); [ $190 ; $300 ); >= $300

name host_id

minimum_nights

Bảng 1 Mô tả biến

10

1 chuỗi ký tự số

1 chuỗi ký tự số hoặc chữ Số thập phân Số thập phân Entire home/apt; Private room; Shared room; Hotel room

Số tự nhiên

CHƯƠN G II: QUY TRÌN H THỰC HIỆN & KẾT QU Ả 2.1 Phân tích và ti ề n x ử lý d ữ liệ u 2.1.1 Phân tích d ữ liệ u Phân tích d ữ liệu của cá c đặc trưng có tính phân lo ại: Mỗi h àng đạ i d ện cho 1 đố i tượ ng cho thuê, mỗi cột chứa các thu ộc tính của đối tượng. Dữ liệu thô ch ứa 6 5.535 hàng (đố i tượ ng) và 15 c ột (đặc trưng). Trong c ộ t d ữ liệu về loại phòng có 4 thu ộ c tính là: nhà nguyên căn/ căn hộ, p hòng ở riêng, phòng ở chung, phòng khách s ạ n. Tổng số lượng thuê phòng lo ại nhà/ căn h ộ nguyê n căn ca o hơn rấ t nhi ều so v ớ i các lo ạ i phòng còn l ại ( phòng “Entire home/apt” chi ế m 77,36%) Hawaii, Broward C ountry và Au stin là 3 thành ph ố có s ố lượng phòng cho thuê nhi ều nhấ t (l ầ n lư ợ t là 26,53% - 16, 57% - 15 ,92% trên t ổ ng s ố phòng cho thuê Airbnb t ạ i M ỹ). Mức độ phân b ố giá phòng tập trung mạnh mẽ tro ng kho ảng từ $0 đế n $2000, m ức độ giá t ập trung cũng khác nhau theo lo ạ i phòng, l ần lượ t t ừ r ẻ đến đắt nhất là: Phòng c hung -> Phòng KS -> Phòng riêng - > Nhà nguyên căn.

B i ểu đ ồ 1 D ữ l i ệ u Da t a t h e o g i á v à l o ạ i p h ò n g

11

Số lượng phòng cho thuê

60000

Số lượng phòng cho thuê

50697 50000 40000 30000 20000

13430

10000 816

20000 18000 16000 14000 12000 10000 8000 6000 4000 2000 0

17385

10858

10436

8408 6397 4200

3339

2074

1409

1029

592

0 Entire home/apt

Hotel room Private room Shared room

Loại căn hộ

Thành phố

B i ểu đ ồ 2 S ố l ư ợn g p h òn g c h o th u ê t h e o l o ạ i că n h ộ

B i ểu đ ồ 3 S ố l ư ợn g p h ò n g c h o t h u ê t h e o t h à n h p h ố

100% 90% 80% 70% 60% 50% 40%

Shared room

30%

Private room

20% 10%

Hotel room

Entire home/apt

0% Asheville

Austin

Boston

Broward County

Cambridge

Chicago

Clark County

Columbus

Denver

Shared room

7

134

8

162

9

90

66

17

44

55

Private room

364

2202

1142

2295

484

1833

2291

346

935

1538

73

330

3

35

180

536

4401

5721

1043

3186

15612

Hotel room Entire home/apt

19

15

27

134

1684

8085

2162

8267

B i ểu đ ồ 4 T ỷ l ệ p h â n b ố cá c l o ạ i p h ò n g c h o t h u ê t h e o k h u v ự c

12

Hawaii

2.1.2 Tiền x ử lý d ữ liệ u Xử lý dữ liệu: • Báo cá o s ử d ụ ng b ộ d ữ liệu đư ợ c t ổ ng h ợ p t ừ trang inside airbnb.com, đã được xác mình và x ử lý cơ bả n nên không có d ữ liệu thiếu. • Loại b ỏ biế n ngo ại lai (Outliers) trong shee t “SR” có giá (“Price”) = 10.000. Phân chia dữ liệu: Lọc t ừ d ữ liệu gốc “AB_US_2020 ” thàn h các sheet chứa d ữ liệ u theo t ừ ng lo ại phòng khác n hau: “HR” ; “SR ” ; “EH” ; “PR”. Thêm bi ế n phân lo ại: Thê m c ột Định giá (“Valuation”) trong sheet “HR” - gá n các kho ảng g iá tương ứ ng v ớ i giá tr ị trong c ột G iá (“Price”) . C ác m ố c giá được phân chia d ựa trên m ật độ phòng cho thuê t ại các mức g iá trong kho ảng đó là đều nhau. Price 0...


Similar Free PDFs