Modul Analisis Regresi PDF

Title Modul Analisis Regresi
Pages 61
File Size 945.1 KB
File Type PDF
Total Downloads 16
Total Views 543

Summary

ANALISIS REGRESI Analisis regresi adalah analisis statistika yang bertujuan untuk memodelkan hubungan antara variabel independent dengan variabel dependent. Istilah regresi pertamakali dikenalkan oleh Francis Galton (1886) melalui artikelnya yang berjudul Regression Towards Mediocrity In Hereditary ...


Description

ANALISIS REGRESI

Analisis memodelkan

regresi

adalah

hubungan

analisis

antara

statistika

variabel

yang

independent

bertujuan dengan

untuk

variabel

dependent. Istilah regresi pertamakali dikenalkan oleh Francis Galton (1886) melalui artikelnya yang berjudul Regression Towards Mediocrity In Hereditary Stature, di dalam artikel ini Galton mengkaji hubungan antara tinggi badan anak dengan tinggi badan orang tua. Dari hasil kajian ini diperoleh informasi adanya hubungan antara tinggi badan anak dengan tinggi orang-tuanya. Model yang menggambarkan hubungan antara variabel independent (X) dengan variabel dependent (Y) adalah : Y= f(X,) +   

1

Hubungan antara variabel independent dengan variabel dependent dikatakan linear jika dapat dinyatakan dalam model : Y =   X1 + X2 +…+pXp +   Dalam catatan matriks, model regresi linear dapat ditulis dalam : Y =X    atau 1 X 11 ... X p1  0   Y1   1           1 X 21 ... X 2 p  1  2  Y2        ...  ...  ... ... ...   ...        1 X n1 X np  p  Yn   n        Nilai  dapat ditaksir dengan menggunakan metode kuadrat terkecil dengan cara : ˆ( X ' X ) 1 ( X ' Y ) 

ˆ  n  0 ˆ  2  x1  ˆ  ( X ' X )  ...   ...    ˆ    x p[ p   

x x

...

1 2 1

x x 1

...

p

x x x

 y     x1 y   1 p  ( X 'Y )    ...        x 2p  x p y   p

Pengujian terhadap  dapat dilakukan dengan dua cara yaitu pengujian secara serentak dan pengujian secara individu. Pengujian secera serentak Hipotesis : H0 :    H1 :   

2

Statistik Uji df

Sumber

Sum

of MS

F

Squares

Variasi Regresi

p

(YˆY )

Residual

n-p-1

(Y Yˆ)

Total

n-1

(Y Y )

(YˆY )

2

2

/p

MS . Re gresi MS . Re sidual

(Y Yˆ) /(n p 1)

2

2

2

Tolak Ho jika F>F,p,n-p-1 Pengujian secara individu Hipotesis H0 : I = 0 H1 : I 0 Statistik uji

ˆ  t  i s ˆ i

Tolak H0 jika |t|>tn-p-1 Kegiatan Praktikum Tentukan model yang menggambarkan hubungan antara harapan hidup perempuan (Y) dengan pendapatan per-kapita dan kepadatan penduduk yang dinyatakan dalam : Y =    ln(gdp_cap) +  ln(density) +  Penyelesaian : a. Melakukan transformasi ln(gdp_cap) dan ln(density) dengan cara : [klik transform+ compute]

3

4

b. Melakukan analisis regresi ;[klik+analyze+regression+linear]

dan hasilnya adalah : Model Summary Model 1

R .840a

R Square .706

Adjusted R Square .700

Std. Error of the Estimate 5.788

a. Predictors: (Constant), ln_gdp, ln_dens

ANOVAb Model 1

Regression Residual Total

Sum of Squares 8519.080 3551.268 12070.349

df 2 106 108

Mean Square 4259.540 33.503

a. Predictors: (Constant), ln_gdp, ln_dens b. Dependent Variable: Average female life expectancy

5

F 127.141

Sig. .000a

Coefficientsa

Model 1

(Constant) ln_dens ln_gdp

Unstandardized Coefficients B Std. Error 17.981 3.501 .904 .388 6.150 .390

Standardized Coefficients Beta .123 .831

t 5.136 2.332 15.766

Sig. .000 .022 .000

a. Dependent Variable: Average female life expectancy

Seluruh nilai sig.10

X ' X 0

stepwise Principal component reg.

R2 tinggi tetapi tidak ada yang significant

23

Ridge regression

REGRESI BOOTSTRAPP Asumsi yang utama di dalam analisi regresi adalah asumsi kenormalan residual. Asumsi ini dibutuhkan terkait dengan penggunaan statistik uji F dan t. Jika asumsi kenormalan ini tidak dipenuhi maka kesimpulan dari hasil pengujian dengan statistik uji F dan t menjadi tidak valid asumsi

kenormalan

ini

dapat

dipergunakan

uji

Untuk menguji

Kolmogorov-Smirnov,

Anderson-Darling, Shapiro-Wilk, dan Goodness-of-fit   jika hasil pengujian kenormalan menyimpulkan asumsi ini tak terpenuhi maka salah satu solusi adalah dengan menerapkan metode regresi bootstrap. Algoritma dari metode regresi bootstrap adalah : 1. mulai 2. Tentukan nilai taksiran dari model Y=X  dengan metode kuadrat ˆ dan nilai taksirannya adalah terkecil, hasil taksirannya adalah  j,ols Yˆ i ,ols

Tentukan nilai e1, e2,…,en, ei Yi Yˆ B=1000 i=0 i=i+1 Melakukan resampling with resampling sebanyak n dari ei hasil resamplingnya adalah e(i) 8. Menentukan nilai Yi Yˆ i ,ols e( i ) ˆ pada resampling ke-i yaitu  dari dan data Yi 9. Menduga besarnya  j j ,i dengan Xji dengan metode kuadrat terkecil 10.Jika i let c27=loge(lifeexpf) MTB>namec27=’ l n_gdp’ Regresi [klk stat+regression+regression]

klik storage

25

dan hasilnya adalah : The regression equation is LIFEEXPF = 21.7 + 6.15 ln_gdp Predictor Coef SE Coef T P Constant 21.670 3.187 6.80 0.000 ln_gdp 6.1538 0.3981 15.46 0.000 S = 5.907 R-Sq = 69.1% R-Sq(adj) = 68.8% Analysis of Variance Source DF SS MS F Regression 1 8336.9 8336.9 238.93 Residual Error 107 3733.4 34.9 Total 108 12070.3

Pengujian asumsi kenormalan [klik stat+basic statistics+normality test]

26

P 0.000

Dengan

menggunakan

metode

kuadrat

terkecil

diperoleh

hasil

kenormalan residual tidak terpenuhi, sehiingga sebagai alternatif digunakan metode regresi bootstrapp yang dinyatakan dalam macro MINITAB : macro regb y x mconstant n i b low_b0 up_b0 low_b1 up_b1 mcolumn x y yy yhat e ee b0 b1 beta b0_boot b1_boot let n=count(y) let b=1000 regr y 1 x; resid e; fits yhat. do i=1:b sample n e ee; replacement. let yy=yhat+ee regr yy 1 x; coef beta. let b0(i)=beta(1) let b1(i)=beta(2) enddo histo b0 histo b1 let b0_boot=mean(b0) let b1_boot=mean(b1) sort b1 b1 sort b0 b0 let low_b0=b0(25) let up_b0=b0(975) let low_b1=b1(25) let up_b1=b1(975) print b0_boot low_b0 up_b0 print b1_boot low_b1 up_b1 endmacro Untuk menjalankan macro di atas dapat dilakukan dengan cara : MTB>%r egb. t x t‘ l i f eex pf ’‘ l n_gdp’ dan hasilnya adalah :

27

b0

low_b0 up_b0

b1

14.7859 27.6859

low_b1 up_b1

b0_boot 21.5513

5.40552 6.96901

b1_boot 6.16731

Confidence interval yang diperoleh untuk  dan  semuanya tidak melalui titik 0, sehingga dapat disimpulkan dua koefisien regresi ini significant pada . Dan model yang diperoleh adalah : lifeexpf = 21.5513 + 6.16731 ln(gdp_cap)

28

HETEROSCEDASTICITY Heteroscedasticity adalah sifat residual yang mempunyai varians yang tidak homogen, atau : var(i ) i2 2i

Untuk memeriksa sifat ini dapat dipergunakan scatter-plot antara residual yang sudah dibakukan dengan nilai yˆ, jika scatter plot membentuk gambar seperti pola sebelah kiri berikut maka varians residual masih dianggap konstan dan jika membentuk pola seperi sebelah kanan maka varians residual cenderung tidak homogen.

Selain dengan menggunakan scatter-plot seperti di atas, keberadaan hetrocedasticity juga dapat diuji dengan menggunakan uji Glejser dengan cara meregresikan

kuadrad

atau

harga

mutlak

residual

dengan

variabel

independent, jika ada variabel independent yang significant maka varians residual cenderung tidak homogen, untuk mengatasi hal ini biasanya dilakukan transformasi dengan cara membagi seluruh nilai variabel dengan variabel yang significant, atau :

29

Jika e k .x1 . maka dilakukan transformasi sebagai berikut :

x x x y 1 0 1 1 2 2 3 3 ... atau x1 x1 x1 x1 x1 y * 1 0 x1* 2 x 2* 3 x3* ...

Koefisien regresi dari model ini kemudian ditaksir dengan menggunakan metode kuadrat terkecil sehingga diperoleh : y * b1 b0 x1* b2 x 2* b3 x3* ...

Kemudian

model

ini

dikembalikan

ke

variabel

asal

dengan

menggandakan ruas kiri dan ruas kanan dengan x1 sehingga diperoleh : y b1 b0 x1 b2 x 2 b3 x3 ...

Secara umum masalah

heterocedasticity dapat diatasi dengan

mengguna-kan metode weighted least-squares yaitu : ˆ( X ' 1 X ) 1 X1Y dan  adalah matriks diagonal dengan unsur 

diagonal adalah i Selain dengan menggunakan uji Glejser, uji adanya heteroscedasticity dapat diuji dengan koefisien korelasi Spearman antara residual dengan variabel independent, jika korelasi ini significant maka cenderung terjadi kasus hetroscedasticity. Koefisien korelasi Spearman dihitung dengan cara :

6D 2

r 1  2 dan D adalah selisih rank antar dua variabel. n(n 1)

30

Kegiatan Praktikum : Dengan

menggunakan

uji

Glejser,

heteroscedasticity untuk data berikut : Year Saving Income 1 264 8777 2 105 9210 3 90 9954 4 131 10508 5 122 10979 6 107 11912 7 406 12747 8 503 13499 9 431 14269 10 588 15522 11 898 16730 12 950 17663 13 779 18575 14 819 19635 15 1222 21163 16 1702 22880 17 1578 24127 18 1654 25604 19 1400 26500 20 1829 27670 21 2200 28300 22 2017 27430 23 2105 29560 24 1600 28150 25 2250 32100 26 2420 32500 27 2570 35250 28 1720 33500 29 1900 36000 30 2100 36200 31 2300 38200

31

periksalah

adanya

kasus

Penyelesaian : Dengan bantuan MINITAB permasalahan di atas, dapat diselesaikan dengan cara : MTB > regr 'saving' 1 'income'; SUBC> fits c11; SUBC> resid c12. dan hasilnya adalah : The regression equation is saving = - 648 + 0.0847 income Predictor Constant income

Coef -648.1 0.084665

S = 247.6

SE Coef 118.2 0.004882

R-Sq = 91.2%

T -5.49 17.34

P 0.000 0.000

R-Sq(adj) = 90.9%

Untuk melakukan uji Glejser, dilakukan perintah : MTB > let c13=abs(c12) MTB > name c13='abs_res' MTB > regr 'abs_res' 1 'income' The regression equation is abs_res = - 7.7 + 0.00935 income Predictor Constant income

Coef -7.69 0.009346

S = 100.0

SE Coef 47.73 0.001972

R-Sq = 43.6%

T -0.16 4.74

P 0.873 0.000

R-Sq(adj) = 41.7%

Dari hasil uji Glejser ini, diperoleh informasi adanya hubungan antara variabel harga mutlak residual dengan variabel income sehingga terjadi kasus heteroscedasticity. Karena nilai harga mutlak residual sebanding dengan nilai income maka selanjutnya dilakukan analisis regresi untuk model : saving/income =      income)+  Dengan bantuan MINITAB analisis regresi untuk model di atas dapat dilakukan dengan cara :

32

MTB > MTB > MTB > MTB > SUBC>

let c4=saving/income let c5=1/income name c4='y*' c5='x*' regr 'y*' 1 'x*'; resid c21.

dan hasilnya adalah : The regression equation is y* = 0.0881 - 723 x* Predictor Constant x* S = 0.01051

Coef 0.088139 -722.50

SE Coef 0.004372 72.36

R-Sq = 77.5%

T 20.16 -9.98

P 0.000 0.000

R-Sq(adj) = 76.7%

Pengujian adanya heteroscedasticity dengan uji Glejser MTB > let c22=abs(c21) MTB > name c22='absres' MTB > regr 'absres' 1 'income' Hasil pengujian Glejser The regression equation is absres = 0.00793 +0.000000 income Predictor Coef SE Coef T P Constant 0.007931 0.002608 3.04 0.005 income 0.00000003 0.00000011 0.31 0.760 S = 0.005465 R-Sq = 0.3% R-Sq(adj) = 0.0% NIlai p untuk variabel income >5% sehingga tidak ada hubungan antara harga mutlak residual dengan income atau varians residual cenderung sudah homogen. Sedangkan asumsi kenormalan residual dapat diuji dengan cara : MTB > %NormPlot C21; SUBC> Kstest. Dan hasil uji kenormalan dengan menggunakan uji Kolmogorov Smirnov adalah :

33

Dari hasil pengujian Komogorov Smirnov, diperoleh hasil p-value>5% sehingga dapat diputuskan residual sudah berdistribusi normal Model yang menggambarkan hubungan antara saving dengan income setelah dilakukan transfromasi adalah : y* = 0.0881 - 723 x* atau : saving/income= 0.0881 -723 (1/income) setelah ruas kiri dan kanan digandakan dengan income maka diperoleh : saving=-723 +0.0881 income

34

MULTICOLLINEARITY Multicollinearity Adanya hubungan linear antar variabel independent Multicollinearity dapat dideteksi dengan : a. Variance Inflation Factor (VIF) yang tinggi, biasanya>10 b. korelasi antar variabel independent yang tinggi c.

X ' X 0

d. R2 tinggi tetapi tidak ada variabel independent yang significant e. Koefisien korelasi dan koefisien regresi berbeda tanda Multicollinearity dapat diatasi dengan : a. Mengeluarkan salah satu variabel independent yang berkorelasi tinggi dengan variabel independent yang lain. Pengeluaran variabel ini dapat dilakukan secara manual ataupun otomatis melalui metode stepwise. ˆ( X ' X kI ) 1 X ' Y , 0 PCA 'GDP_CAP' 'URBAN' 'LIT_MALE' 'LIT_FEMA'; SUBC> Coefficients c41-c44; SUBC> Scores c51-c54. Eigenanalysis of the Correlation Matrix

2.

Eigenvalue Proportion Cumulative

2.8278 0.707 0.707

0.7163 0.179 0.886

0.4141 0.104 0.990

0.0419 0.010 1.000

Variable GDP_CAP URBAN LIT_MALE LIT_FEMA

PC1 -0.435 -0.414 -0.560 -0.571

PC2 0.655 -0.755 0.028 0.022

PC3 -0.616 -0.506 0.478 0.368

PC4 0.049 0.046 0.676 -0.734

Meregresikan y dengan w Hanya w1 yang eigen-value-nya >1 sehingga regresinya hanya dengan w1 MTB > regr 'lifeexpf' 1 'w1' The regression equation is LIFEEXPF = 71.8 - 3.51 w1 Predictor Constant w1

3.

Coef 71.7619 -3.5140

SE Coef 0.9930 0.6051

T 72.26 -5.81

P 0.000 0.000

Menyatakan model regresi ke dalam variabel asal y = 71.8 -3.51 w1 y = 71.8 –3.51(-0.435 z1 -0.414 z2 -0.560 z3 -0.571 z4 y = 71.8 + 1.53 z1 + 1.45 z2 + 1.97 z3 + 2.00 z4 x x3 x x1 x x 2 x x 4 y 71.8 1.53 1 1.45 2 1.97 3 2 4 s x1 s x2 s x3 s x4

41

AUTOCORRELATION Autocorrelation Adanya hubungan antar residual atau residual bersifat tidak saling independent, kasus ini sering dijumpai pada data time series.

Autocorrelation dapat dideteksi dengan : a. Statistik uji Durbin-Watson : n

(e

d i 2

i

ei 1 ) 2

n

e i 1

2 i

b. ACF plot, ada nilai r(et,et-k) melampaui batas 0 

2 n

maka residual

tidak saling independent c. Statistik uji Ljung-Box k

r j2

Q n(n 2) tolak Ho : residual saling independent jika Q>k n  j j 1

Adanya residual yang saling dependent dapat diatasi dengan : a. Regresi beda yt y t 1 0 1 ( xt xt 1 ) t b. Regresi Nisbah

yt x 0 1 t t y t 1 xt 1 c. yt . y t 1 0 1 ( xt .xt 1 ) t

42

Kegiatan Praktikum tahun 1970 1971 1972 1973 1974 1975 1976 1977 1978 1979 1980 1981 1982 1983 1984 1985 1986 1987 1988 1989 1990 1991 1992 1993 1994 1995 1996 1997 1998 1999

export 102 105 105 105 104 104 106 106 105 106 106 106 106 106 108 108 109 110 113 113 112 114 113 112 114 113 117 117 117 117

gdp 255 261 261 260 257 257 261 260 257 259 259 258 257 257 261 261 262 264 271 271 268 271 269 266 270 267 276 276 276 275

Tentukan model yang menggambarkan hubungan antara gdp dengan export dan periksa apakah residual sudah saling independent.

43

Penyelesaian a. Penentuan model regresi dan pemeriksaan asumsi independent residual MTB>r egr‘ gdp’1‘ ex por t ’ ; SUBC > resid c5. The regression equation is gdp = 110 + 1.41 export Predictor Constant export S = 1.549

Coef 110.354 1.40664

SE Coef 6.839 0.06251

R-Sq = 94.8%

T 16.14 22.50

P 0.000 0.000

R-Sq(adj) = 94.6%

MTB > %acf c5

Nilai autokorelasi residual keluar dari batas pada lag ke-1 sehingga residual tidak saling independent.

44

b. Mengatasi autocorrelation dengan regresi beda MTB > diff 'export' c7 MTB > diff 'gdp' c8 MTB > name c7 'dif_xprt' c8 'diff_gdp' MTB > regr c8 1 c7; SUBC> resid c9. The regression equation is diff_gdp = - 0.488 + 2.28 dif_xprt 29 cases used 1 cases contain missing values Predictor Constant dif_xprt S = 0.4956

Coef -0.48789 2.27658

SE Coef 0.09875 0.06924

R-Sq = 97.6%

T -4.94 32.88

R-Sq(adj) = 97.5%

MTB > %acf c9

residual sudah saling independent, dan modelnya adalah : ( gdp t gdpt 1 ) 0.488 2.28(exp ort t exp ort t 1 )

45

P 0.000 0.000

Mengatasi autocorrelation dengan regresi nisbah MTB > let c11=c2/lag(c2) MTB > let c12=c3/lag(c3) MTB > regr c12 1 c11; SUBC> resid c13. The regression equation is C12 = 0.0563 + 0.942 C11 29 cases used 1 cases contain missing values Predictor Constant C11 S = 0.001930

Coef 0.05627 0.94186

SE Coef 0.02957 0.02942

R-Sq = 97.4%

T 1.90 32.01

R-Sq(adj) = 97.3%

MTB > %acf c13

residual sudah saling independent, dan modelnya adalah

gdp t exp ort t 0.0563 0.942 gdp t 1 exp ort t 1

46

P 0.068 0.000

ROBUST REGRESSION Metode pendugaan parameter yang paling sering dipergunakan di dalam analisis regresi adalah metode kuadrat terkecil (least squares), metode ini mempunyai kelemahan jika diterapkan pada data yang mengandung pengamatan berpengaruh (inflentual observation), persamaan regresi yang dihasilkan oleh metode kuadrat terkecil cenderung mudah berubah-ubah dengan adanya pengamatan berpengaruh.

Untik mengatasi kelemahan metode kuadrat terkecil ini dapat dilakukan dengan dua cara yaitu : a.

Mengeluarkan titik yang berpengaruh yang dapat dideteksi dengan dffit, cook distance, dfbetas, setelah itu tetap menggunakan metode kuadrat terkecil

b.

Tetap menggunakan seluruh data, tetapi dengan memberikan bobot yang kecil untuk pengamatan yang berpengaruh, metode ini dikenal dengan nama metode regresi robust.

47

Metode pendugaan parameter di dalam analisis regresi robust a.

Least Absolute Deviation (LAD), metode ini bekerja dengan n

meminimukan harga mutlak residual atau meminimumkan

e i 1

b.

Least

Trimmed

Squares,

metode

ini

bekerja

i

dengan

cara

meminimumkan jumlah kuadrat q buah residual terkecil atau q

meminimumkan

e i 1

c.

2 i

, besarnya q n / 2

Least Median Squares (LMS), metode ini bekerja dengan cara meminimumkan median kuadrat residual atau meminimumkan median( ei2 )

d.

M estimate, metode ini dikenalkan oleh...


Similar Free PDFs