Title | Bai Mau Du Lieu Thu Cap - Mẫu KHDL |
---|---|
Author | HA DANG THI THU |
Course | Management Science |
Institution | Trường Đại học Kinh tế Thành phố Hồ Chí Minh |
Pages | 20 |
File Size | 1.3 MB |
File Type | |
Total Downloads | 352 |
Total Views | 724 |
TRƯỜNG ĐẠI HỌC KINH TẾ TP .HCMKHOA CÔNG NGHỆ THÔNG TIN KINH DOANH----- -----BÁO CÁO CUỐI KỲỨng dụng máy học vào phân nhóm và dự đoángiá phòng cho thuê Airbnb tại Mỹ năm 2020Môn học : Khoa học dữ liệu - 21D1INFGiảng viên : Ths. Nguyễn Mạnh TuấnSinh viên t hực hiện: Nguyễn Phương Linh - 31171021...
TRƯỜNG ĐẠI HỌC KINH TẾ TP.HCM KHOA CÔNG NGH Ệ THÔNG TIN KINH DOANH
----- -----
BÁO CÁO CU Ố I K Ỳ Ứng dụng máy học vào phân nhóm và dự đoán giá phòng cho thuê Airbnb t ạ i M ỹ năm 2020
Môn h ọc: Khoa h ọ c d ữ liệ u - 21D1INF50905914 Giảng viên : Ths. Nguy ễ n M ạ nh Tu ấn Sinh viên th ự c hi ện: Nguyễn Phương Linh - 31171021011
TP. H ồ Chí Minh 06/2021
1
DANH M Ụ C BI ỂU ĐỒ Biểu Biểu Biểu Biểu Biểu Biểu
đồ đồ đồ đồ đồ đồ
1 2 3 4 5 6
Dữ liệu Data theo giá và loại phòng ----------------------------- 11 Số lượng phòng cho thuê theo lo ại căn hộ ---------------------- 12 Số lượng phòng cho thuê theo thành phố ----------------------- 12 Tỷ lệ phân bố các loại phòng cho thuê theo khu vực ---------- 12 Minh họa Sihouette Plot ------------------------------------------ 19 Minh họa Scatter Plot (Pri ce/Avalibility_365) ----------------- 19
DANH M Ụ C HÌNH ẢNH Hình Hình Hình Hình Hình Hình Hình Hình Hình Hình
1: Mô hình phân l ớ p d ữ liệ u -------------------------------------------- 6 2 Ví d ụ sơ đồ cây quy ết định ------------------------------------------- 7 3 Sơ đồ t ổ ng quát SVM -------------------------------------------------- 7 4 Ví d ụ sơ đồ kNN ------------------------------------------------------- 8 5 Mô hình phân c ụ m d ữ liệ u -------------------------------------------- 8 6 Mô hình bài toán 1 ---------------------------------------------------- 14 7 K ế t qu ả d ự báo (1) ---------------------------------------------------- 15 8 Mô hình bài toán 2 ---------------------------------------------------- 16 9 K ế t qu ả d ự báo (2) ---------------------------------------------------- 17 10 Mô hình bài toán 3 -------------------------------------------------- 18
DAN H M Ụ C B Ả NG Bảng Bảng Bảng Bảng Bảng Bảng
1 2 3 4 5 7
Mô tả biến ------------------------------------------------------------- 10 K ế t qu ả Test & Score (1) -------------------------------------------- 14 K ế t qu ả Confusion Matrix (1) --------------------------------------- 15 K ế t qu ả Test & Score (2) -------------------------------------------- 16 K ế t qu ả Confusion Matrix (2) --------------------------------------- 17 K ế t qu ả k-Means ------------------------------------------------------ 18
2
MỤC L Ụ C CHƯƠN G I: TỔN G QUAN --------------------------------------------------------- 4 1.1 L Ý DO CH ỌN ĐỀ T ÀI ----------------------------------------------------------- 4 1.1.1 Mục tiêu ng hiên c ứ u ----------------------------------------------------- 4 1.1.2 Đối tượng nghiên c ứu --------------------------------------------------- 4 1.2 M Ô T Ả BÀI T OÁN -------------------------------------------------------------- 5 1.3 M Ô T Ả PHƯƠNG PHÁP --------------------------------------------------------- 6 1.3.1 Phương pháp phân lớp (Cla ssification) ------------------------------- 6 1.3.2 Phương pháp phân c ụm (Clustering) ---------------------------------- 8 1.4 M Ô T Ả D Ữ LIỆU -------------------------------------------------------------- 10 CHƯƠN G II: QUY TRÌN H THỰC HIỆN & KẾT QU Ả --------------------- 11 2.1 P HÂN T ÍCH VÀ T I Ề N X Ử L Ý D Ữ LIỆU ---------------------------------------- 11 2.1.1 Phân tích d ữ liệ u ------------------------------------------------------ 11 2.1.2 Tiền x ử lý d ữ liệ u ------------------------------------------------------ 13 2.2 B ÀI TOÁN 1: D Ự ĐOÁN PHÂN LO ẠI ĐỐI TƯ ỢNG CHO THUÊ THE O L OẠI PHÒNG C ỦA A IRBNB H OA K Ỳ T HÁNG 10/2020. -------------------------------- 14 2.2.1 Quy trình th ự c hi ện: --------------------------------------------------- 14 2.2.2 Đánh giá và k ết qu ả --------------------------------------------------- 14 2.3 B ÀI TOÁN 2: D Ự BÁO GIÁ PHÒNG CHO THUÊ L O ẠI “H OT E L ROOM ”------ 16 2.3.1 Quy trình th ự c hi ện: --------------------------------------------------- 16 2.3.2 Đánh giá và k ết qu ả --------------------------------------------------- 16 2.4 B ÀI TOÁN 3: P HÂN CỤM CÁC PHÒNG CHO T HUÊ L OẠI “S HARE D ROOM ” 18 2.4.1 Quy trình th ự c hi ện: --------------------------------------------------- 18 2.4.2 Đánh giá & k ết qu ả --------------------------------------------------- 18 TÀI LI Ệ U THAM KH Ả O --------------------------------------------------------- 20
3
CHƯƠN G I: TỔNG QUAN 1.1 Lý do ch ọn đ ề tài Từ khi đư ợ c th ành l ập năm 2008, Airbnb phát triể n mạnh mẽ v à tha y đổi c ách vận h ành truy ề n th ố ng c ủ a ngành khách s ạ n trê n th ế giới. N gày càng nhi ề u du khách lựa ch ọn Airbnb là nơi tìm kiếm địa điểm tá túc khi đi du lịch. Airbnb đặ c bi ệ t cung cấp cho khách du l ịch p hương th ứ c tìm ki ếm nơi lư u trú d ễ dàng – độc đáo – cá nh ân hóa hơn. Đặc biệt, Airbnb có độ phủ sóng cao và là phư ơng ti ệ n tra cứu quen th uộc của khách du l ịch có nhu c ầu nghỉ dưỡ ng h o ặ c trả i nghi ệ m vă n hó a ở M ỹ . Vì v ậ y, phân tích s ố liệ u phòng cho thuê t ạ i Airbnb Hoa K ỳ - m ộ t kh ía c ạnh nào đó – có th ể nhận bi ết nhu c ầ u và x u hướ ng th ự c t ế c ủ a khách du l ị ch đối vớ i t ừ ng lo ạ i phòng ở ho ặc từn g địa phương. Ngoài ra, d ữ liệ u v ề giá cho thuê d ự a trên cung – c ầ u th ự c t ế c ủ a khách thuê t ại Airbnb c ó th ể s ử d ụng để dự báo ho ặc đưa ra mức đị nh giá h ợp lý cho các đối tượng cho thuê tương ứ ng. Quan tr ọ ng, b ộ d ữ liệ u v ề nh à ở cho thuê c ủ a Airbnb qua các năm đư ợ c cung cấp c ông khai và phi thư ơng mạ i bởi bên thứ ba: http://in sideairbnb. com/. Điều này giúp sinh v iên thu th ậ p nhanh c hóng và ch ính xác n gu ồn dữ liệ u t ừ thự c t ế . Từ những lý do trên, sinh viên l ự a c h ọn đề tài “Ứng d ụ ng máy h ọ c vào phân nhóm và d ự đoán giá của phòng cho thuê Airbnb t ại Mỹ năm 202 0” làm b áo cáo kết thúc môn học. 1.1.1 Mục tiêu nghiên cứu Ba m ụ c tiêu chín h c ủa đề tài tư ơng ứ ng v ớ i ba bài toán c ầ n g i ả i quy ết: Dự đoá n ph ân lo ạ i đối tượ ng theo nhóm 4 loại phòng có trong A irbnb giúp khách hà ng d ễ dàng tìm ki ế m lo ạ i phòng phù h ợ p theo nhu c ầu. Định kho ả ng giá cho các đối tư ợ ng cho thuê lo ạ i phòng “Hotel room” trong Airbnb theo các tiêu chí có s ẵn - giú p ngư ờ i cho thuê l ự a ch ọ n m ứ c giá c ho thuê phù h ợ p v ớ i th ị trườ ng. Gom c ụm các đối tư ợ ng cho thuê lo ại phòng “Shared home” tồ n t ạ i trên hệ thống c ủ a Airbnb – để doanh nghi ệ p có th ể phá t tri ể n thêm nh ữ ng d ị ch v ụ tăng cường riêng cho từng nhóm khách hàng. 1.1.2 Đối tượng nghiên cứu Sử d ụ ng b ộ d ữ liệu bao g ồ m các thông tin công khai v ề da nh sách cho thuê trên Airbnb t ạ i các thà nh ph ố ở Hoa K ỳ mà insideairbnb.com cung c ấ p.
4
1.2 Mô t ả b ài toán Sử d ụng Excel và phần m ềm Orang e để x ử lý d ữ liệu và gi ả i quy ế t các bài toán sau: Bài toán 1: D ự đoán phân đ ối tượ ng cho thuê theo lo ạ i phòng c ủ a Airbnb Hoa K ỳ (bài toán phân l ớp đa lớ p) Bài toán 2: D ự báo giá phòng cho thuê lo ại “Ho tel room” (bài toán phân lớp đa lớp) Bài toán 3: Phân c ụ m các phòng cho thuê lo ại “Shared room” (bài toán gom c ụm dữ liệ u).
5
1.3 Mô t ả phư ơng pháp 1.3.1 Phương pháp phân lớp (C lassification) Phân l ớ p d ữ liệ u là quá trình phân m ột đối tư ợ ng d ữ liệ u vào m ộ t hay nhi ề u l ớp (loại) đã cho trư ớ c nhờ một mô hình p hân l ớ p. Mô hìn h này đã đư ợ c xâ y dựng dựa trên m ộ t t ậ p d ữ liệu đã đượ c gán nhãn trư ớc đó. Quá trình gán nhãn cho m ột đối tượng dữ liệu c hính là q uá trình ph ân l ớp.
Hì n h 1 : M ô h ì n h p h â n l ớ p d ữ l i ệ u
Quá trình p hân l ớp dữ liệ u g ồm 3 bướ c: Bước 1: Xây d ựn g mô hình (giai đo ạ n “huấn luy ện”). • Dữ liệu đầu vào là dữ liệu m ẫu đã đượ c gán nhãn và ti ền xử lý. • Các thu ậ t toán phân l ớ p: Cây quy ết đị nh, SVM , … • Kết qu ả c ủa bướ c này là mô hình phân l ớp đã đượ c hu ấ n luy ệ n (trình phân lớp). Bước 2: Đánh giá mô hình (ki ểm tra tính đúng đ ắ n) • Dữ liệu đầu vào: là một tập dữ liệu m ẫu khác đã đư ợ c g ắ n nhãn và ti ền xử lý. Tuy nhiên lú c đưa vào mô hình phân l ớp, ta sẽ “lờ” đi thuộc tình đã được gắn nhãn. • Tính đúng đắ n của mô hình sẽ đư ợc xác đị nh b ằng cách so sánh thu ộc tính gắn n hãn của dữ liệu đầu vào và k ế t qu ả phân l ớ p mô h ình. Bước 3: Phân l ớ p d ữ liệu m ớ i Phân lo ạ i bài toán phân l ớp: Nhiệm v ụ c ủ a bài toán phân l ớ p là phân lo ại đ ối tượng dữ liệu vào n l ớ p cho trư ớ c n ếu: • n = 2: Thu ộ c bài toán phân l ớ p n h ị phân.
6
• n > 2: Thu ộ c bài toán phân l ớp đa lớp. Các phương p háp phân lớp được sử dụng tron g bài: Cây quy ết đị n h (Decision Tree ): Trong lý thuy ế t qu ả n tr ị , cây quy ết đị nh là đồ thị các quy ết đị nh c ùng các k ết quả kh ả d ĩ đi kèm nhằ m hỗ trợ qu á trình ra quyết định. Trong lĩnh v ự c kh ai thá c d ữ liệu, câ y qu yết đ ịnh là phư ơng pháp mô tả , phân lo ạ i và t ổ ng quát hóa t ậ p d ữ liệu cho trướ c.
Hì n h 2 V í d ụ s ơ đ ồ câ y q u y ế t đ ị n h
SVM (Support Vec tor Machine) là m ộ t thu ậ t toán có giám sát, SVM nh ận dữ liệu vào, xem chúng như các vector trong không gian và phân lo ại chún g vào các lớp khác nhau b ằ ng cách xây d ự ng m ộ t siê u ph ẳ n g trong không gian n hi ề u chi ề u làm mặt ph ân cách các l ớ p d ữ liệu. Để t ối ưu kế t quả phân lớp thì phải xá c đị n h siêu phẳng (hyperplane) có kho ảng cách đ ến các điể m d ữ liệ u (margin) c ủ a t ấ t c ả các l ớp xa nh ấ t có th ể . SVM có n hi ề u bi ế n th ể để ph ù h ợ p v ớ i nhi ề u bà i toán phân lo ạ i khác nhau.
Hì n h 3 S ơ đ ồ t ổ n g q u á t S V M
7
KNN (K-nearsest neighbor) là thu ật toán đơn giả n nh ấ t trong nh ữ ng th u ật toán supervised- lea rning nhưng lạ i hi ể u q u ả tro ng m ộ t s ố trườ ng h ợ p. Thu ậ t toán này không c ầ n h ọ c t ừ d ữ liệ u hu ấ n luy ệ n, khi c ầ n d ự đoán kế t qu ả c ủ a d ữ liệ u m ới thì thu ậ t toán này m ớ i th ự c hi ệ n tính toán. KNN có th ể á p d ụ ng trên c ả hai lo ạ i bài toán phân lo ạ i và h ồ i quy.
Hì n h 4 V í d ụ s ơ đ ồ kN N
1.3.2 Phương pháp phân c ụm (Clustering) Phân c ụ m d ữ liệ u là q uá trình gom c ụm/nhóm các đ ối tượng /dữ liệu có đặ c điểm tương đ ồ ng vào các c ụm/nhóm tư ơng ứng. Trong đó: Các đối tượ ng trong c ùng một cụm sẽ có những tính ch ất tương tự nhau. Các đối tượng thuộc cụm/nhóm khác nhau s ẽ có các tính c h ấ t khác nhau. Lưu ý: D ữ liệu của bài toán phân cụm là dữ li ệu chưa đư ợc gán nhãn. Đây là d ữ liệu t ự nhiên thư ờ ng th ấ y trong th ự c t ế .
Hì n h 5 M ô h ìn h p h â n c ụ m d ữ l i ệ u
Đặ c điểm: Nhiệm v ụ chính là tìm ra và đo đ ạ c s ự khá c bi ệ t g i ữa các đối tượ ng d ữ liệu. Phân c ụ m thu ộc nhóm phương pháp h ọ c không giám sát (unsupervise d learning) vì không bi ết trư ớc đượ c s ố nhóm (khá c v ớ i bài toán phâ n l ớp) Một phương pháp phân c ụ m t ốt là phương p háp tạ o ra các c ụm có chất lượng cao: • Độ tương đồng bên trong c ụm cao
8
Độ tương tự giữa c ác c ụ m th ấ p (khác bi ệ t cao) Các ứ ng d ụ ng điển hình: Công c ụ phân c ụ m d ữ liệu độ c lập. • Là giai đoạn tiền xử lý cho c ác thuật toán khác Độ đo phân c ụm được s ử d ụ ng làm tiêu chí nh ằ m tính toán s ự tương đồ ng hoặc sai bi ệ t gi ữa các đối tư ợ n g d ữ liệ u nh ằ m ph ụ c v ụ cho qu á trình go m c ụm. Mộ t s ố độ đo phân cụm: Euclid , Cosin, Minkowski … Thuật toán K-mean s: Thuộc nhóm thu ậ t toán phâ n c ụ m d ự a trên phâ n ho ạ ch. Tư tưở ng chín h: Ta xem m ỗi đối tượ ng trong tập dữ liệu là m ột điể m trong không gian d chi ề u (v ớ i d là s ố lượ ng thu ộ c tính c ủa đối tượ ng) • •
9
1.4 Mô t ả d ữ liệ u Bộ dữ liệu được tổng hợp từ các tập d ữ liệu v ề nhà ở cho thuê Airbnb t ạ i Hoa Kỳ - được truy xu ấ t t ạ i: http://insideairbnb.c om/. B ộ d ữ liệu đượ c thu th ậ p vào ngày 20 tháng 10 n ăm 2020 b ởi Kritik Seth. Bộ dữ liệu g ồ m c ác thông tin: Thuộc tính id
Ý nghĩa Mã định danh của Airbnb cho đối tượng cho thuê
Mô tả 1 chuỗi ký tự số
Tên của đối tượng cho thuê Mã định danh của Airbnb cho chủ nhà / người cho thuê
1 chuỗi ký chữ
host_name
Tên của chủ nhà/ người cho thuê
1 chuỗi ký chữ
neighbourhood
Tên của khu vực lân cận
latitude longitude
Vĩ độ Kinh độ
room_type
Loại phòng của đối tượng cho thuê
price
Giá phòng mỗi ngày ($) Số đêm lưu trú tối thiểu của đối tượng cho thuê
Số tiền (USD)
number_of_reviews
Số lượng đánh giá của đối tượng cho thuê
Số tự nhiên
reviews_per_month
Số lượt đánh giá trung bình mỗi tháng
Số thập phân
calculated_host_listings_count
Số lượng phòng cho thuê cùng thành phố mà chủ nhà sở hữu có trong danh sách hiện tại
Số tự nhiên
availability_365
Tính khả dụng (ngày): Một máy chủ Airbnb có thể thiết lập lịch cho danh sách của họ để nó chỉ có sẵn trong vài ngày hoặc vài tuần trong năm.
Số tự nhiên
city
Thành phố tại nơi cho thuê
Asheville, Austin, Boston, Broward County, Chicago, Clark County, Columbus, Denver, Hawaii, Cambridge
valuation
Khoảng định giá phòng / ngày (chỉ có trong sheet "HR")
< $130; [ $130 ; $190 ); [ $190 ; $300 ); >= $300
name host_id
minimum_nights
Bảng 1 Mô tả biến
10
1 chuỗi ký tự số
1 chuỗi ký tự số hoặc chữ Số thập phân Số thập phân Entire home/apt; Private room; Shared room; Hotel room
Số tự nhiên
CHƯƠN G II: QUY TRÌN H THỰC HIỆN & KẾT QU Ả 2.1 Phân tích và ti ề n x ử lý d ữ liệ u 2.1.1 Phân tích d ữ liệ u Phân tích d ữ liệu của cá c đặc trưng có tính phân lo ại: Mỗi h àng đạ i d ện cho 1 đố i tượ ng cho thuê, mỗi cột chứa các thu ộc tính của đối tượng. Dữ liệu thô ch ứa 6 5.535 hàng (đố i tượ ng) và 15 c ột (đặc trưng). Trong c ộ t d ữ liệu về loại phòng có 4 thu ộ c tính là: nhà nguyên căn/ căn hộ, p hòng ở riêng, phòng ở chung, phòng khách s ạ n. Tổng số lượng thuê phòng lo ại nhà/ căn h ộ nguyê n căn ca o hơn rấ t nhi ều so v ớ i các lo ạ i phòng còn l ại ( phòng “Entire home/apt” chi ế m 77,36%) Hawaii, Broward C ountry và Au stin là 3 thành ph ố có s ố lượng phòng cho thuê nhi ều nhấ t (l ầ n lư ợ t là 26,53% - 16, 57% - 15 ,92% trên t ổ ng s ố phòng cho thuê Airbnb t ạ i M ỹ). Mức độ phân b ố giá phòng tập trung mạnh mẽ tro ng kho ảng từ $0 đế n $2000, m ức độ giá t ập trung cũng khác nhau theo lo ạ i phòng, l ần lượ t t ừ r ẻ đến đắt nhất là: Phòng c hung -> Phòng KS -> Phòng riêng - > Nhà nguyên căn.
B i ểu đ ồ 1 D ữ l i ệ u Da t a t h e o g i á v à l o ạ i p h ò n g
11
Số lượng phòng cho thuê
60000
Số lượng phòng cho thuê
50697 50000 40000 30000 20000
13430
10000 816
20000 18000 16000 14000 12000 10000 8000 6000 4000 2000 0
17385
10858
10436
8408 6397 4200
3339
2074
1409
1029
592
0 Entire home/apt
Hotel room Private room Shared room
Loại căn hộ
Thành phố
B i ểu đ ồ 2 S ố l ư ợn g p h òn g c h o th u ê t h e o l o ạ i că n h ộ
B i ểu đ ồ 3 S ố l ư ợn g p h ò n g c h o t h u ê t h e o t h à n h p h ố
100% 90% 80% 70% 60% 50% 40%
Shared room
30%
Private room
20% 10%
Hotel room
Entire home/apt
0% Asheville
Austin
Boston
Broward County
Cambridge
Chicago
Clark County
Columbus
Denver
Shared room
7
134
8
162
9
90
66
17
44
55
Private room
364
2202
1142
2295
484
1833
2291
346
935
1538
73
330
3
35
180
536
4401
5721
1043
3186
15612
Hotel room Entire home/apt
19
15
27
134
1684
8085
2162
8267
B i ểu đ ồ 4 T ỷ l ệ p h â n b ố cá c l o ạ i p h ò n g c h o t h u ê t h e o k h u v ự c
12
Hawaii
2.1.2 Tiền x ử lý d ữ liệ u Xử lý dữ liệu: • Báo cá o s ử d ụ ng b ộ d ữ liệu đư ợ c t ổ ng h ợ p t ừ trang inside airbnb.com, đã được xác mình và x ử lý cơ bả n nên không có d ữ liệu thiếu. • Loại b ỏ biế n ngo ại lai (Outliers) trong shee t “SR” có giá (“Price”) = 10.000. Phân chia dữ liệu: Lọc t ừ d ữ liệu gốc “AB_US_2020 ” thàn h các sheet chứa d ữ liệ u theo t ừ ng lo ại phòng khác n hau: “HR” ; “SR ” ; “EH” ; “PR”. Thêm bi ế n phân lo ại: Thê m c ột Định giá (“Valuation”) trong sheet “HR” - gá n các kho ảng g iá tương ứ ng v ớ i giá tr ị trong c ột G iá (“Price”) . C ác m ố c giá được phân chia d ựa trên m ật độ phòng cho thuê t ại các mức g iá trong kho ảng đó là đều nhau. Price 0...