Pemilihan Model Terbaik Regresi PDF

Title	Pemilihan Model Terbaik Regresi
Author	Rifa Fitrianti
Pages	45
File Size	622.6 KB
File Type	PDF
Total Downloads	219
Total Views	498

Preview

CLICK TO PREVIEW PDF

Summary

Description

MAKALAH ANALISIS REGRESI TERAPAN Pemilihan Model Regresi Terbaik Menggunakan Metode All Possible Regression, Best Subset Regression, dan Sequensial Regression

Disusun oleh : Kelompok 4 Nurinayah

(14611070)

Moh. Aliamsyah

(14611076)

Andre Pratama

(14611078)

Suri Islamiah

(14611090)

Rifa Fitrianti

(14611094) Kelas C

JURUSAN STATISTIKA FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM UNIVERSITAS ISLAM INDONESIA YOGYAKARTA 2016

Pemilihan Model Regresi Terbaik Menggunakan Metode All Possible Regression, Best Subset Regression, dan Sequensial Regression Andre Pratama, Nurinayah, Moh. Aliamsyah, Rifa Fitrianti, Suri Islamiah ([email protected]) Program Studi Statistika, Universitas Islam Indonesia, Yogyakarta Abstrak Analisis regresi seringkali digunakan untuk mengkaji hubungan antara beberapa variabel dan meramal suatu variabel. Agar diperoleh hasil analisis yang optimal, maka diperlukan model regresi terbaik. Pemilihan model regresi terbaik adalah penentuan peubah bebas mana yang akan dimasukkan dalam model regresi sehingga model tersebut dapat menjelaskan perilaku peubah tak bebas dengan baik. Metode yang umum digunakan antara lain all possible regression, best subset regression, the backward elimination, the stepwise regression procedure dan lainlain. Penelitian ini bertujuan mengkaji metode pemilihan model regresi terbaik yang dapat di terapkan dalam analisis regresi. Dari metode-metode yang dibahas, metode yang merupakan metode terbaik adalah metode Stepwise. Kemudian untuk metode yang cukup memuaskan untuk diaplikasikan adalah metode the backward elimination, karena metode ini jauh lebih menghemat waktu dan tenaga dibandingkan dengan metode all possible regression. Sedangkan pada metode best subset regression sendiri memiliki beberapa kelemahan, seperti cenderung menghasilkan persamaan regresi dengan terlalu banyak peubah peramal. Kata-kata Kunci : analisis regresi, all possible regression, best subset regression, the backward elimination, the stepwise regression procedure. I.

PENDAHULUAN

1.1.

Latar Belakang Dalam menentukan model regresi, variabel bebas dapat masuk dalam model

secara bersama-sama atau satu persatu. Jika variabel bebas masuk dalam model secara bersama-sama maka perhitungan akan ringkas, akan tetapi tidak akan kelihatan apa yang terjadi dalam perhitungan tersebut karena setiap variabel bebas yang masuk memberikan pengaruh yang berbeda, tergantung pada urutan variabel bebas tersebut yang masuk dalam model. Namun tidak berarti semua variabel yang masuk dalam model regresi menjadikan model tersebut model yang terbaik (Sembiring,1995). Model regresi terbaik adalah model yang dapat menjelaskan

1

perilaku peubah tak bebas dengan sebaik-baiknya dengan memilih peubah-peubah bebas dari sekian banyak peubah bebas yang tersedia dalam data. Untuk menentukan peubah bebas mana yang akan dimasukkan ke dalam model regresi, menurut Draper, ada dua kriteria yang saling bertentangan yaitu agar persamaannya bermanfaat untuk peramalan, biasanya ingin dimasukkan sebanyak mungkin peubah sehingga diperoleh nilai ramalan yang andal serta untuk memperoleh informasi dari banyak peubah serta pemantauannya sering kali diperlukan biaya yang tinggi, maka diinginkan persaman regresi yang mencakup sesedikit mungkin peubah. Kompromi diantara kedua kriteria itulah yang disebut pemilihan model regresi terbaik. Untuk mengatasi kesulitan yang dihadapi dalam menentukan model terbaik dapat digunakan beberapa metode yaitu metode semua kombinasi yang mungkin (all possible regression), regresi himpunan bagian terbaik (best subset regression), prosedur eliminasi langkah mundur (the backward elimination) dan prosedur regresi bertatar (the stepwise regression procedure). Metode yang sering digunakan adalah metode semua kombinasi yang mungkin (all possible regression). Namun metode yang biasanya direkomendasikan adalah metode the stepwise regression procedure, karena lebih menghemat waktu-komputer dibandingkan metodemetode yang lain, dan juga untuk mencegah masuknya peubah X daripada yang diperlukan sambil memperbaiki persamaannya pada setiap tahap. 1.2.

Rumusan Masalah Berdasarkan latar belakang masalah diatas, maka permasalahan yang akan

dibahas dalam penulisan ini adalah sebagai berikut: a. Apa saja metode-metode yang dapat digunakan dalam pemilihan model regresi terbaik ? b. Bagaimana langkah-langkah menggunakan metode tersebut agar diperoleh model regresi terbainya ? c. Bagaimana penerapan metode-metode tersebut pada sebuah kasus?

2

1.3.

Tujuan Tujuan yang ingin dicapai dalam penulisan ini adalah sebagai berikut:

a. Untuk mengetahui metode-metode yang digunakan dalam pemilihan model regresi terbaik. b. Untuk mengetahui langkah-langkah dalam menggunakan metode tersebut. c. Untuk mengetahui penerapan metode-metode tersebut dalam sebuah kasus. II.

KAJIAN PUSTAKA Penelitian mengenai pemilihan model terbaik dilakukan untuk mengetahui

metode mana yang lebih mudah digunakan untuk memilih persamaan model terbaik dan bagaimana cara memilih persamaan model terbaik. Model regresi terbaik adalah model yang dapat menjelaskan perilaku peubah tak bebas dengan sebaikbaiknya dengan memilih peubah-peubah bebas dari sekian banyak peubah bebas yang tersedia dalam data. Pada tahap yang paling sederhana model bertujuan untuk pemerian, menerangkan suatu sistem, peubah apa saja yang besar pengaruhnya dalam sistem tersebut. Model juga berguna untuk tujuan prediksi maupun untuk pengendalian suatu sistem, serta penaksiran parameter regresi. Kajian mengenai pemilihan model regresi terbaik antara lain dilakukan oleh Ferry Kondo Lembang. Hasil penelitiannya yaitu “Analisis Regresi Berganda dengan Metode Stepwise pada Data HBAT”. Hasil penelitiannya menjelaskan bahwa kepuasan pelanggan secara signifikan dipengaruhi oleh tanggapan terhadap komplain, kualitas produk, image dari sales aktivitas e-commarce, dan product line. Selain itu kajian menganai pemilihan model regresi terbaik juga dilakukan oleh Herlina Hanum. Hasil penelitiannya yaitu “Perbandingan Metode Stepwise, Best Subset Regression, dan Fraksi dalam Pemilihan Model Regresi Berganda Terbaik”. Hasil penelitian tersebut menjelaskan bahwa pemilihan model regresi terbaik dengan metode Stepwise dan Best Subset Regression tidak mempertimbangkan masalah moltikolinear. Akibatnya model terbaik pilihan kedua metode tersebut masih mengandung masalah multikolinear. Sementara metode fraksi lebih fokus untuk menghindari masalah multikolinear, sehingga menghasilkan model terbaik

3

tanpa ada masalah multikolinear. Penelitian lainnya juga dilakukan oleh Novelysa Samosir, Partano Siagian, dan Pengarapen Bangun. Mereka bersama-sama melakukan penelitian tentang “Analisa Metode Backward dan Metode Forward untuk Menentukan Persamaan Regresi Linier Berganda” dengan studi kasus, Jumlah Kecelakaan Lalu Lintas di Kotamadya Medan dan masih banyak lagi penelitian lainnya berkaitan dengan pemilihan model regresi terbaik. III.

METODE PENELITIAN Tulisan ini dibuat berdasarkan hasil analisis data menggunakan metode all

possible regression, best subset regression, the backward elimination, forward selection dan the stepwise regression procedure. Dalam Kajian ini digunakan data Apendiks B, yang berasal dari buku A. Hald Statistical Theory with Engineering Application yang diterbitkan oleh Wiley, New York, Pada 1952 yang memiliki 4 peubah bebas. Data tersebut memilki korelasi tinggi antar peubah bebasnya. Agar terlihat jelas perbandingan dari hasil kelima metode tersebut, penyajian dilakukan untuk masing-masing metode. Kemudian dipilih model terbaik dengan menggunakan masing-masing metode. Kajian difokuskan pada bentuk dan sifat model terbaik yang dihasilkan dari kelima metode tersebut. IV.

LANDASAN TEORI Pada bagian ini akan dijabarkan definisi maupun teorema sebagai dasar

pengertian untuk mempermudah pembahasan pada bagian selanjutnya. Landasan teori yang digunakan adalah sebagai berikut: 4.1.

Regresi Berganda Menurut Sarwono (2006) analisis regresi linear berganda mengestimasikan

besarnya koefisien-koefisien yang dihasilkan oleh yang bersifat linear yang melibatkan dua variabel bebas untuk digunakan sebagai alat prediksi besarnya nilai variabel tergantung. Analisis regresi berganda merupakan analisis data kuantitatif yang digunakan untuk mencari besar hubungan secara linear antara dua atau lebih variabel independen (X1, X2,…Xn) dengan variabel dependen (Y). Uji ini digunakan untuk mengetahui apakah variabel independen (X1,X2….Xn) secara 4

bersama-sama berpengaruh secara signifikan terhadap variabel dependen (Y). Persamaan regresi berganda sebagai berikut:

Keterangan:

4.2.

=

+

+

+

+ ⋯+

+�

[4.1]

Y

=

Variabel dependen (nilai yang diprediksikan)

X1, X2, X3

=

Variabel independen

=

Konstanta (nilai Y apabila X1, X2…..Xn = 0)

=

Koefisien regresi (nilai peningkatan ataupun penurunan)

=

Galat acak yang berdistribusi � , �

�

Variabel Dependen

Variabel dependen (variabel respon) yaitu variabel yang keberadaannya dipengaruhi oleh variabel lainnya dan dinotasikan dengan variabel Y. 4.3.

Variabel Independen Variabel independen disebut juga dengan variabel prediktor yaitu variabel

yang bebas (tidak dipengaruhi oleh variabel lainnya) dan dinotasikan dengan X. 4.4.

Nilai F Dalam hal yang lebih umum, misal akan dibandingkan =

Keterangan:

+

+�

[4.2]

Y

=

Variabel dependen (nilai yang diprediksikan)

X1, X2

=

Variabel independen

=

Koefisien regresi (nilai peningkatan ataupun penurunan)

=

Galat acak yang berdistribusi � , �

�

Dengan

=

∗

+∈∗ . Misalkan X1 dan X2 masing-masing matriks

rancangan berukuran � ×

−

dan � ×

>

, dan misalkan JKS

menyatakan jumlah kuadrat sisa dari model yang lebih lengkap (yang pertama) dan JKS1 menyatakan jumlah kuadrat sisa dari model yang lebih sederhana maka uji F

untuk menguji bahwa

≠

berbentuk:

5

�ℎ

Keterangan:

��

−

=

/ �−

/

[4.3]

Fhitung =

Nilai F yang diperoleh dari proses matematis (hitung)

JKS

=

Jumlah kuadrat sisa (variansi karena sisa)

�

=

Banyaknya sampel

=

Banyaknya parameter dalam model

=

Banyaknya parameter dalam model

Dalam hal nilai Fhitung besar, artinya lebih besar dari �

,

− ,

yang

diperoleh dari tabel-F, maka kita akan memilih model yang lengkap, sedangkan bila nilai Fhitung kecil maka pilih model yang lebih sederhana. 4.5.

Korelasi Korelasi adalah derajat hubungan linear antara dua variabel atau lebih dari

data hasil pengamatan. Dua variabel dikatakan berkorelasi apabila perubahan dalam satu variabel diikuti oleh perubahan variabel lain, baik yang searah maupun tidak. Berdasarkan hubungan antar variabel yang satu dengan variabel lainnya dinyatakan dengan koefisien korelasi yang disimbolkan dengan ”r”. Besarnya korelasi berkisar antara − ≤

≤ . Jika dua variabel berkorelasi negatif maka nilai koefisien

korelasinya akan mendekati -1, jika dua variabel tidak berkorelasi maka nilai koefisien korelasinya akan mendekati 0, sedangkan jika dua variabel berkorelasi positif maka nilai koefisien korelasinya akan mendekati 1. 4.6.

̅� Nilai �

Koefisien determinasi adalah untuk mengetahui proporsi keragaman total dalam variabel tak bebas Y yang dapat dijelaskan atau diterangkan oleh variabel bebas yang ada di dalam model persamaan regresi linier berganda secara bersamasama. Koefisien determinasi dinyatakan dengan R2 untuk pengujian regresi linier berganda yang mencakup lebih dari dua variabel. Jika nilai yang akan dibandingkan dua atau lebih model regresi dan yang satu bukan himpunan bagian dari yang lainnya, seperti model ̂ = � + �

+�

6

dengan ̂ = � + �

+�

+

�

, maka uji-F tidak lagi banyak menolong. Dalam hal ini penggunaan R2 lebih

sesuai. Hubungan yang lebih umum dari R2 ditentukan dengan rumus: ∑�

% = (∑�=

=

=

Keterangan:

�̂ −�̅

� −�̅

)

%=

�′ ′ −� ̅ ′ −� ̅

=

Nilai koefisien determinasi

JKR

=

Jumlah kuadrat regresi (variansi karena regresi)

JKT

=

Jumlah kuadrat total (variansi total)

%

[4.4]

Salah satu kelemahan R2 ialah bahwa besarnya dipengaruhi oleh banyaknya peubah bebas dalam model, R2 membesar bersama banyaknya parameter dalam model, sehingga sulit menyatakan beberapa R2 yang optimum. Akan tetapi bila model yang ingin dibandingkan mempunyai banyaknya parameter dalam model yang sama maka R2 mudah digunakan, kemudian pilih model dengan R2 terbesar. Suatu cara mengatasi kelemahan R2 tersebut diatas ialah dengan menggunakan apa yang disebut dengan R2-disesuaikan, lambang ̅ . Penyesuaian dikerjakan dengan membagi JKS dan JKT masing-masing dengan derajat kebebasannya pada rumus R2. Nilai R2 dapat dirumuskan sebagai berikut: ̅

= = =

Keterangan:

− − −

/ �− �−

/ �−

−

�−

�−

−

�−

̅

=

Nilai R2 yang telah disesuaikan

R2

=

Nilai koefisien determinasi

JKS

=

Jumlah kuadrat sisa (variansi karena sisa)

JKT

=

Jumlah kuadrat total (variansi total)

�

=

Banyaknya sampel

=

Banyaknya parameter dalam model

=

Banyaknya parameter dalam model

7

[4.5]

4.7.

Rataan Kuadrat Sisa, S2 Salah satu patokan yang digunakan dalam menilai kecocokan suatu model

dengan data ialah dengan rataan kuadrat sisa

, makin kecil nilai

akan semakin

baik model. Ukuran ini memperhitungkan banyaknya parameter dalam model melalui pembagian dengan derajat kebebasannya. Rataan kuadrat sisa,

, mungkin

membesar bila penuruanan dalam JKS akibat pemasukan suatu peubah tambahan kedalam model tidak dapat mengimbangi penurunan dalam derajat kebabasannya (sebesar 1). Penambahan peubah bebas ke dalam model akan menurunkan JKS dan derajat kebebasannya, keduanya menuju ke nol jika p menuju ke n. akan sulit meramalkan apa tepatnya yang terjadi dengan

=

/ �−

. Pada umumnya

akan mengecil kesuatu minimum kemudian mungkin bergelombang di sekitar nilai tersebut bila p membesar. ̅ 2 membesar. Nilai Keterangan:

4.8.

berkaitan erat dengan ̅ 2, apabila

mengecil maka

dirumuskan sebagai berikut: =

=

[4.6]

�− −

=

Rataan kuadrat sisa (KTS)

JKS

=

Jumlah kuadrat sisa (variansi karena sisa)

�

=

Banyaknya sampel

=

Banyaknya parameter dalam model

Metode R2 Maksimum (MAXR) Metode MAXR hampir sama dengan metode yang lain yaitu bertujuan

untuk menemukan model yang terbaik dalam kelompok satu peubah, dalam kelompok dua peubah, dan seterusnya dengan patokan

. Dalam metode MAXR

penggunaanya dimulai dengan satu peubah untuk menemukan

terbesar dalam

kelompok, selanjutnya ditambahkan peubah baru kedalam model sebelumnya. Model tersebut selanjutnya dibandingkan dengan model dua peubah lainnya yang diperoleh dari mengganti salah satu peubah dalam model tadi dengan peubah yang diluar model, lalu model yang memberikan

terbesar akan dipilih. Perbandingan

tersebut dilakukan dengan setiap model yang dapat diperoleh dengan mengganti

8

salah satu peubah dalam model dengan yang lainnya yang berada diluar. Model yang memberikan

terbesar adalah model terbaik dari kelompok model dengan

dua peubah. Peubah ketiga kemudian dipilih yang memberikan

terbesar, dengan

cara mengganti suatu peubah dalam model dengan yang lainnya yang berada diluar dipilih model tiga peubah yang memberikan

terbesar. Metode ini dilanjutkan

sehingga diperoleh model dengan tiga peubah dengan 4.9.

terbesar dan seterusnya.

Statistik Cp-Mallows Statistik Cp-Mallows merupakan nilai dugaan yang didapat dari persamaan

regesi berdasarkan sebagian peubah bebas pada umumnya bias. Model statistik CpMallows dengan

parameter adalah: � =

Keterangan: JKSp �

�

− �−

=

Jumlah kuadrat sisaan dari model yang ditentukan

=

Estimasi variansi sisaan

=

Banyaknya observasi

=

Banyaknya parameter dalam model

Perhatikan bahwa

[4.7]

pada persamaan (4.7) diambil dari model yang lengkap

sehingga untuk model ini selalu diperoleh � = , seolah-olah model tersebut tidak

bias. Nilai Cp berkaitan sangat erat dengan R2-disesuaikan, sehingga apabila R2disesuaikan maka Cp juga dengan sendirinya dapt dihitung sehingga tidak ada tambahan informasi yang diberikan Cp. Jika ketiga patokan yang telah diberikan, R2-disesuaikan, rataan kuadrat sisa dan Cp ternyata berkaitan erat satu sama lain sehingga sesungguhnya ketiganya memberikan informasi yang sama. 4.10. Identifikasi Model Regresi Proses identifikasi dalam regresi menjadi salah langkah penting yang harus dilakukan dalam analisis regresi. Identifikasi dalam regresi dimaksudkan untuk mengetahui karakteristik data yang ada apakah dapat diregresikan atau tidak, mengetahui hubungan antara variabel independen terhadap variabel dependen, mengidentifikasi adanya data outlier serta faktor lain dari data yang dapat mempe-

9

ngaruhi atau bahkan menghambat dalam proses analisis regresi. Proses identifikasi bertujuan untuk menentukan metode serta langkah-langkah yang sesuai diterapkan pada data penelitian yang tersedia. 4.11. Estimasi Model Regresi Metode yang digunakan untuk mengestimasi fungsi regresi adalah metode pendekatan kuadrat terkecil (least square approach). Melalui metode ini peneliti bermaksud memperkecil jumlah kuadrat error yang terjadi (error total merupakan selisih antara nilai aktual dengan nilai yang diprediksi melalui model regresi). Estimasi model dimulai dengan menentukan variabel independen yang akan masuk dalam persamaan regresi. Salah satu pendekatan yang dapat dan sering digunakan dalam pemilihan model terbaik adalah pendekatan sequensial regression. Selain itu ada dua pendekatan lain yaitu all possible regression dan best subset regression. Metode-metode yang biasa digunakan dalam penentuan model regresi terbaik adalah sebagai berik...