BTL XSTK - Lecture notes 1 PDF

Title BTL XSTK - Lecture notes 1
Author Khang Nguyễn Phúc Bình
Course Giáo dục Quốc phòng - An
Institution Trường Đại học Bách khoa, Đại học Quốc gia Thành phố Hồ Chí Minh
Pages 21
File Size 908.9 KB
File Type PDF
Total Downloads 189
Total Views 972

Summary

Download BTL XSTK - Lecture notes 1 PDF


Description

ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC BÁCH KHOA KHOA KHOA HỌC ỨNG DỤNG

BÁO CÁO BÀI TẬP LỚN MÔN XÁC SUẤT THỐNG KÊ

GVHD: SV thực hiện:

Phan Thị Hường Nguyễn Duy Khang – 2011364 Nguyễn Phúc Bình Khang – 2011368 Tạ Lê Đắc Lộc – 2010396 Trà Trung Tín – 2010702 Nguyễn Quốc Dũng – 2011026

Tp. Hồ Chí Minh, Tháng 11/2021

Trường Đại Học Bách Khoa - ĐHQG TPHCM Khoa Khoa Học Ứng Dụng

Mục lục 1 Phần chung 1.1 Cơ sở lý thuyết mô hình hồi quy tuyến tính bội . . . . . . . . . . . . . . . . . . . . . . . . 1.1.1 Phương trình hồi quy tuyến tính bội . . . . . . . . . . . . . . . . . . . . . . . . . . 1.1.2 Xác định giá trị của các tham số trong mô hình hồi quy tuyến tính bội . . . . . . 1.1.3 Kiểm định giả thiết thống kê trong mô hình hồi quy tuyến tính bội . . . . . . . . . 1.2 Nội dung báo cáo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.2.1 Đề bài . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.2.2 Đọc dữ liệu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.2.3 Làm sạch dữ liệu (Data cleaning) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.2.4 Làm rõ dữ liệu (Data visualization) . . . . . . . . . . . . . . . . . . . . . . . . . . 1.2.5 Xây dựng các mô hình hồi quy tuyến tính (Fitting linear regression models) . . . . 1.2.6 Dự báo (Predictions) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

2 2 2 2 3 4 4 4 4 5 10 12

2 Phần riêng 13 2.1 Lý do chọn đề tài . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 2.2 Tập tin dữ liệu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 2.3 Phân tích . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 2.3.1 Nhập dữ liệu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 2.3.2 Làm rõ dữ liệu (Data visualization) . . . . . . . . . . . . . . . . . . . . . . . . . . 14 2.3.3 Xây dựng các mô hình hồi quy tuyến tính (Fitting linear regression models) . . . . 18 2.3.4 Dự đoán (Predictions) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 Tài liệu

Báo cáo bài tập lớn môn Xác suất thống kê (MT2013) - Niên khóa 2021-2022

20

Trang 1/20

Trường Đại Học Bách Khoa - ĐHQG TPHCM Khoa Khoa Học Ứng Dụng

1

Phần chung

1.1

Cơ sở lý thuyết mô hình hồi quy tuyến tính bội

Trong đời sống và trong kỹ thuật, việc một yếu tố phụ thuộc vào nhiều yếu tố khác diễn ra khá thường xuyên. Để mô hình hóa các bài toán như thế, ta cần một mô hình có thể có nhiều biến độc lập, và hồi quy tuyến tính bội là một trong những mô hình đơn giản và nền tảng nhất có thể đáp ứng được yêu cầu đó. 1.1.1

Phương trình hồi quy tuyến tính bội

Tổng quát, biến phụ thuộc Y có thể có liên hệ đến k biến không phụ thuộc khác (biến hồi quy). Khi đó, mô hình Y = β0 + β1 x1 + β2 x2 + ... + βk xk + ϵ (1) được gọi là mô hình hồi quy tuyến tính bội với k biến hồi quy. Khi đó, phương trình 1 vạch ra trong không gian k + 1 chiều một siêu mặt phẳng (hyperplane). Trong phương trình 1, • Tham số β0 được gọi là intercept của mặt phẳng, nghĩa là β0 là giá trị của Y khi x1 = x2 = ... = xk = 0. • Các tham số β1 , β2 , ... cũng được gọi là hệ số hồi quy riêng, bởi vì, β1 thể hiện sự thay đổi của Y theo mỗi đơn vị của x1 khi các biến còn lại được giữ nguyên, β2 thể hiện sự thay đổi của Y theo mỗi đơn vị của x2 khi các biến còn lại được giữ nguyên, v.v. • ϵ là phần sai lệch giữa giá trị Y trong phương trình và giá trị thực tế của Y. Thực chất, mô hình này thường chỉ dự đoán tốt kỳ vọng của Y, chứ không phải giá trị thực tế của Y, hay nói cách khác E(Y |xi theo các i) = β0 + β1 x1 + β2 x2 + ... + βk xk , còn ϵ là một biến ngẫu nhiên có kỳ vọng là 0 và phương sai σ 2 . Mô hình hồi quy tuyến tính bội cũng thường được dùng để xấp xỉ giá trị của hàm số. Nghĩa là, mối quan hệ chính xác giữa các biến Y và x1 , x2 , x3 , ... là chưa biết, nhưng trên những khoảng xác định của các biến độc lập (biến hồi quy), giá trị của mô hình hồi quy tuyến tính là phù hợp. 1.1.2

Xác định giá trị của các tham số trong mô hình hồi quy tuyến tính bội

Có nhiều cách để xác định giá trị của các tham số, tuy nhiên, trong đó, phương pháp bình phương cực tiểu là thường được sử dụng nhất. Phương pháp bình phương cực tiểu thường được sử dụng để ước tính hệ số hồi quy của mô hình hồi quy tuyến tính bội. Giả sử, có n quan sát, và k biến hồi quy thỏa n > k, và đặt xij là quan sát thứ i. Số quan sát là: (xi1 , xi2 , ..., xik , yi )

i = 1, 2, ..., n

n>k

Mỗi quan sát (xi1 , xi2 , ..., xik , yi ) thỏa mãn mô hình phương trình 1, nghĩa là: yi = β0 + β1 xi1 + β2 xi2 + ... + βk xik + ϵi = β0 +

k X

βj xij + ϵj

i = 1, 2, ..., n

j=1

Công thức bình phương cực tiểu là:  2 k n n X X X yi − β0 − βj xij (ϵi )2 = L= i=1

i=1

(2)

j=1

Chúng ta đang muốn giảm giá trị L này theo các tham số β0 , β1 , ..., βk . Do đó, β0 , β1 , ..., βk cần thỏa mãn:    n k X X ∂L  yi − βˆ0 − (3) = −2 βˆj xij  = 0 ∂βj  βˆ0 ,βˆ1 ,...,βˆk i=1 j=1 Báo cáo bài tập lớn môn Xác suất thống kê (MT2013) - Niên khóa 2021-2022

Trang 2/20

Trường Đại Học Bách Khoa - ĐHQG TPHCM Khoa Khoa Học Ứng Dụng

và    k n X X  ∂L  yi − βˆ0 − βˆj xij  xij = 0 = −2 ∂βj βˆ0 ,βˆ1 ,...,βˆk j=1 i=1

j = 1, 2, ..., k

(4)

Đơn giản phương trình 3 và 4, chúng ta có được phương trình của bình phương cực tiểu như sau: nβˆ0 + βˆ1

n X

xi1 + βˆ2

n X

xi1 + βˆ1

n X

2 xi1 + βˆ2

n X

n X

xik =

i=1

xi1 xi2 + ... + βˆk

n X

xi1 xik =

i=1

i=1

i=1

i=1

xi2 + ... + βˆk

i=1

i=1

βˆ0

n X

n X

i=1 n X

yi xi1 yi

i=1

.............................................................................................................. βˆ0

n X i=1

xik + βˆ1

n n n n X X X X 2 xik xik yi = xik xi1 + βˆ2 xik xi2 + ... + βˆk i=1

i=1

i=1

i=1

Chú ý rằng có p = k + 1 phương trình với k + 1 ẩn số. Vậy giải hệ phương trình tuyến tính này, ta sẽ thu được giá trị của βˆ0 , βˆ1 , ..., βˆk . 1.1.3

Kiểm định giả thiết thống kê trong mô hình hồi quy tuyến tính bội

Bài kiểm định cho ý nghĩa của hồi quy là một bài kiểm định nhằm xác định xem có hay không một mối quan hệ tuyến tính tồn tại giữa biến Y và một nhóm các biến hồi quy x1 , x2 ,... Khi đó giả thiết thống kê hợp lí là: H0 : β0 = β1 = β2 = ... = βk = 0

H1 : βj = 0 với ít nhất một j

(5)

Bác bỏ H0 đồng nghĩa với việc ta chấp nhận có ít nhất một trong các biến hồi quy x1 , x2 , ... có ảnh hưởng đáng kể đến mô hình. Tổng bình phương SST được chia thành hai phần, gồm tổng bình phương do mô hình và tổng bình phương do chênh lệch, nghĩa là: SST = SSR + SSE

(6)

Nếu H0 đúng, SSR /σ 2 là một biến ngẫu nhiên tuân theo phân phối Chi bình phương (Chi-square) với k bậc tự do, bằng với số lượng biến hồi quy trong mô hình. Chúng ta cũng có thể chỉ ra rằng SSE /σ 2 là một biến ngẫu nhiên tuân theo phân phối Chi bình phương với n − p bậc tự do, và SSE và SSR là độc lập. Kiểm định thống kê cho H0 là: F0 =

SSR /k M SR = M SE SSE /(n − p)

(7)

Ta nên bác bỏ H0 nếu giá trị của kiểm định trong phương trình 7 lớn hơn fα,k,n−p , có được từ việc tra bảng Fisher. Ngoài ra, ta cũng có thể sử dụng giá trị R2 và R2 hiệu chỉnh để đánh giá mức độ phù hợp của mô hình. Để tính toán: SSR SSE (8) R2 = =1− SST SST Giá trị R2 gần 1 cho thấy mô hình là tốt, có khả năng cao phù hợp với dữ liệu được đưa vào, trong khi R2 gần 0 chỉ ra rằng mô hình đang sử dụng không thật sự phù hợp để mô tả dữ liệu đầu vào. Tuy nhiên, vì giá trị của R2 không thể giảm khi ta tăng số lượng biến hồi quy, nên giá trị R2 hiệu chỉnh thường được sử dụng trong thực tế hơn, do nó chỉ tăng khi thật sự số lượng dự đoán được cải thiện. Giá trị này được tính như sau: R2hiệu chỉnh = 1 −

SSE /(n − p) SST /(n − 1)

Báo cáo bài tập lớn môn Xác suất thống kê (MT2013) - Niên khóa 2021-2022

(9)

Trang 3/20

Trường Đại Học Bách Khoa - ĐHQG TPHCM Khoa Khoa Học Ứng Dụng

1.2

Nội dung báo cáo

1.2.1

Đề bài

1.2.2

Đọc dữ liệu

Để nhập dữ liệu từ file .csv vào biến data, ta sử dụng lệnh: data...


Similar Free PDFs