Analisis Multivariat II dengan R PDF

Title Analisis Multivariat II dengan R
Author Ardhi Shihab
Course Microeconomics
Institution Universitas Padjadjaran
Pages 77
File Size 2.1 MB
File Type PDF
Total Downloads 97
Total Views 175

Summary

MODUL IANALISIS KOMPONEN UTAMA Analisis Komponen Utama Analisis komponen utama digunakan untuk menjelaskan struktur matriks varians- kovarians dari suatu set variabel melalui kombinasi linier dari variabel-variabel tersebut. Secara umum komponen utama dapat berguna untuk reduksi dan interpretasi var...


Description

Praktikum Analisis Data Multivariat II Menggunakan Software R

MODUL I ANALISIS KOMPONEN UTAMA

1. Analisis Komponen Utama Analisis komponen utama digunakan untuk menjelaskan struktur matriks varianskovarians dari suatu set variabel melalui kombinasi linier dari variabel-variabel tersebut. Secara umum komponen utama dapat berguna untuk reduksi dan interpretasi variabel-variabel. Misalkan saja terdapat p buah variabel yang terdiri atas n buah objek. Misalkan pula bahwa dari p buah variabel tersebut dibuat sebanyak k buah komponen utama (dengan k fit_pca fit_pca fit_pca r R R

[,1]

[,2]

[,3]

[,4]

[,5]

[1,] 1.000 0.577 0.509 0.387 0.462 [2,] 0.577 1.000 0.599 0.389 0.322 [3,] 0.509 0.599 1.000 0.436 0.426 [4,] 0.387 0.389 0.436 1.000 0.523 [5,] 0.462 0.322 0.426 0.523 1.000

# Nilai eigen value dan eigen vector dapat diperoleh

> eigen(R)$value [1] 2.8567110 0.8091637 0.5396752 0.4515001 0.3429499

Bertho Tantular - 11

Praktikum Analisis Data Multivariat II Menggunakan Software R > eigen(R)$vector [,1]

[,2]

[,3]

[,4]

[1,] -0.4636052

0.2403390

[2,] -0.4571078

0.5093047 -0.1781895 -0.2064744

[3,] -0.4701756

0.2604483 -0.3350565

[,5]

0.6117054 -0.3866346 -0.4512622 0.6762233

0.6624447 -0.4000072

[4,] -0.4214588 -0.5256649 -0.5407628 -0.4720060 -0.1755986 [5,] -0.4212245 -0.5819699

0.4351755

0.3824388

0.3850245

# Analisis menggunakan fungsi princomp

> fit_pca2 summary(fit_pca2) Importance of components: Comp.1 Standard deviation

Comp.2

Comp.3

Comp.4

Comp.5

1.6901808 0.8995353 0.7346259 0.67193757 0.58561928

Proportion of Variance 0.5713422 0.1618327 0.1079350 0.09030002 0.06858999 Cumulative Proportion

0.5713422 0.7331749 0.8411100 0.93141001 1.00000000

dari hasil perhitungan tersebut terlihat bahwa proporsi varians untuk komponen 1 baru mencapai 57% dan apabila diambil dua komponen proporsi varians mencapai 73%.

> loadings(fit_pca2) Loadings: Comp.1 Comp.2 Comp.3 Comp.4 Comp.5 [1,] -0.464

0.240

0.612 -0.387 -0.451

[2,] -0.457

0.509 -0.178 -0.206

[3,] -0.470

0.260 -0.335

0.676

0.662 -0.400

[4,] -0.421 -0.526 -0.541 -0.472 -0.176 [5,] -0.421 -0.582

0.435

0.382

0.385

Bertho Tantular - 12

Praktikum Analisis Data Multivariat II Menggunakan Software R Comp.1 Comp.2 Comp.3 Comp.4 Comp.5 SS loadings

1.0

1.0

1.0

1.0

1.0

Proportion Var

0.2

0.2

0.2

0.2

0.2

Cumulative Var

0.2

0.4

0.6

0.8

1.0

Nilai loading yang diperoleh hasilnya sama dengan nilai eigen vektor. Nilai loading ini digunakan sebagai koefisien dari fungsi komponen utamanya.

(2) Fungsi prcomp Selain menggunakan fungsi princomp analisis komponen utama juga dapat menggunakan fungsi prcomp. Fungsi prcomp menganalisis komponen utama menggunakan dekomposisi nilai singular (singular value decomposition atau svd) dari matriks data berbeda dengan fungsi princomp yang menggunakan nilai eigen dari matriks varians-kovarians. Fungsi print dapat digunakan untuk menampilkan hasil analisis dan fungsi plot dapat digunakan untuk menampilkan screeplot. Berikut penjelasan syntax dan pengunaannya.

> prcomp(x, ...) atau > prcomp(formula, data = NULL, subset, na.action, ...) atau > prcomp(x, retx = TRUE, center = TRUE, scale. = FALSE, tol = NULL, ...)

keterangan: formula:

adalah formula untuk variabel numerik tanpa melibatkan variabel respon

data:

data yang digunakan berupa data frame meliputi variabel-variabel dalam formula Sebagai default diambil variabel dari ‘environment(formula)’.

subset:

sebuah vektor yang digunakan untuk memilih baris (pengamatan) dari matriks X

Bertho Tantular - 13

Praktikum Analisis Data Multivariat II Menggunakan Software R na.action:

sebuah fungsi yang mengindikasikan apa yang akan dilakukan apabila ada data hilang

x:

adalah matriks numerik atau data frame yang berisi data yang digunakan untuk analisis komponen utama

retx:

berisi nilai logical (TRUE atau FALSE) yang mengindikasikan rotasi variabel yang akan digunakan

center:

berisi nilai logical (TRUE atau FALSE) yang mengindikasikan pemusatan data terhadap rata-ratanya.

scale:

berisi nilai logical (TRUE atau FALSE) yang mengindikasikan variabel yang dibakukan

tol:

berisi nilai yang mengindikasikan batas bawah komponen mana yang harus diabaikan. Komponen diabaikan apabila nilai simpangan bakunya kurang dari atau sama dengan nilai ”tol”.

Nilai-nilai yang dapat ditampilkan hasil analisis fungsi princomp adalah sebagai berikut

sdev:

Nilai simpangan baku dari komponen utamanya. Yaitu akar dari nilai eigen matriks varians-kovarians atau matriks korelasinya melalui perhitungan nilai singular matriks

data.rotation: adalah matriks variabel loading. Yaitu matriks yang kolom-kolomnya merupakan nilai-nilai eigen matriks varians-kovarians. x:

adalah nilai dari data yang telah dirotasikan. Nilai ini akan ada apabila fungsi ‘retx’ bernilai TRUE .

center, scale: adalah nilai pemusatan dan pembakuan yang digunakan

Penggunaan fungsi prcomp dapat dilakukan pada contoh kasus 1 dengan cara sebagai berikut

Bertho Tantular - 14

Praktikum Analisis Data Multivariat II Menggunakan Software R > fit_pca summary(fit_pca) Importance of components: PC1 Standard deviation

PC2

PC3

0.153 0.0245 0.0190

Proportion of Variance 0.961 0.0247 0.0148 Cumulative Proportion

0.961 0.9852 1.0000

> fit_pca$x PC1 25 -0.268473390

PC2

PC3

0.0610685037 -0.0004066149

26 -0.263344980 -0.0157244390

0.0066858875

27 -0.236045707 -0.0341210935

0.0074276738

28 -0.119923476

0.0141251769

0.0366922244

29 -0.120728388 -0.0149572760

0.0286045130

30 -0.152592781 -0.0089082112 -0.0169793685 31 -0.106039296

0.0165711616

0.0083826652

32 -0.093027430

0.0135333730 -0.0051929344

33 -0.106371042 -0.0012452738 -0.0278503862 34 -0.006575259 -0.0167441765

0.0071889505

35 -0.006268452 -0.0114497088 -0.0061739765 36 -0.011979592

0.0008012246 -0.0267516989

37

0.060886922

0.0280465362

38

0.041862973 -0.0108766303 -0.0089785626

39

0.047500815 -0.0174403631 -0.0021060793

40

0.070171264 -0.0330572711 -0.0006647271

41

0.040553932 -0.0277470963 -0.0419820919

42

0.112788083

0.0212894116

0.0162796865

43

0.105004626 -0.0293536649

0.0085075394

44

0.152416632

0.0324987788 -0.0055238164

45

0.179458559

0.0111082110

0.0125896593

0.0029094996

Bertho Tantular - 15

Praktikum Analisis Data Multivariat II Menggunakan Software R 46

0.179473590

0.0160774637 -0.0091929735

47

0.206783903

0.0297129498 -0.0185740872

48

0.294468494 -0.0232075863

0.0351090182

Dengan cara ini menghasilkan nilai skor komponen utama yang sama dengan cara sebelumnya. Nilai proporsi varians untuk tiap komponen utama juga bernilai sama dengan cara sebelumnya. Selain menggunakan fungsi princomp dan prcomp analisis komponen utama juga dapat dilakukan dengan fungsi principal. Tetapi fungsi principal ini hanya dapat dilakukan apabila telah diinstallkan paket psych. Paket psych dapat diunduh secara gratis di CRAN (http://cran.rproject.org/).

Bertho Tantular - 16

Praktikum Analisis Data Multivariat II Menggunakan Software R

MODUL II ANALISIS FAKTOR

1. Analisis Faktor Analisis Faktor adalah suatu cara menjelaskan suatu set variabel berdasarkan dimensi yang lebih umum. Pada dasarnya analisis faktor bertujuan untuk memudahkan interpretasi melalui struktur pola hubungan atau untuk mereduksi variabel. Hal ini dilakukan dengan cara mengidentifikasi struktur yang terdapat dalam set variabel yang terobservasi. Secara umum ada tiga kegunaan utama dari Analisis Faktor yaitu: •

Eksplorasi (disebut Eksploratory factor analysis (EFA)) yaitu membentuk variabel baru yang diperoleh melalui reduksi variabel



Konfirmasi (disebut Confirmatory Factor Analysis (CFA)) yaitu menguji struktur variabel yang dihipotesiskan berdasarkan banyaknya faktor yang signifikan dan besarnya faktor loading



Alat Pengukur (model measurment) yaitu pembentukan indeks-indeks yang akan digunakan sebagai pengamatan baru dalam analisa selanjutnya Misalkan terdapat satu set variabel dengan banyak variabel adalah p dan ternyata antar

variabel tersebut mempunyai tingkat korelasi yang tinggi. Dimungkinkan ada satu atau lebih variabel yang tidak terobservasi (disebut sebagai variabel laten) yang merupakan penyebab p variabel di atas. Keberadaan variabel yang tak terobservasi yang mampu menjelaskan variabel yang teramati merupakan pembahasan dalam Analisis Faktor. Dengan demikian pada intinya Analisis Faktor menjelaskan hubungan struktur kovarians dari variabel yang teramati dengan variabel yang tidak teramati. Analisis Faktor dapat dirumuskan dalam suatu model persamaan linier. Misalkan vektor acak X dengan p komponen memiliki rata-rata μ dan matriks covariance Σ. Maka dapat dibentuk model persamaan faktornya adalah

Bertho Tantular - 17

Praktikum Analisis Data Multivariat II Menggunakan Software R X1 – μ1 = l11 F1 + l12 F2 + … + l1m Fm + ε1 X2 – μ2 = l21 F1 + l22 F2 + … + l2m Fm + ε2 :

:

:

:

Xp – μp = lp1 F1 + lp2 F2 + … + lpm Fm + εp

dengan: μi = rata-rata variabel asal ke i εi = spesifik faktor ke i Fj = Common faktor ke j. lij disebut loading dari peubah asal ke i pada faktor ke j. Atau dalam bentuk matriks menjadi

(X – μ) (px1)

=

L

F +

ε

(pxm) (mx1) (px1)

Asumsi yang digunakan dalam analisis faktor adalah: •

Data berasal dari populasi yang berdistribusi normal univariat



Dalam set data terdapat multikolinieritas dapat diuji dengan menggunakan Uji Bartlett.



E(F) = 0,



Cov(F) = E(FF’) = I



Cov(e) = E(e e’) = Ψ = diag(Ψ1, …., Ψp)



F dan ε saling bebas,



Cov (ε, F) = E (ε, F’) = 0

E(e) = 0

Koefisien lij disebut loading dari variabel asal ke i pada faktor ke j, maka matriks L adalah matriks factor loading dan F1, F2,…., Fm , ε1, ε2,…. εp adalah tidak terobservasi.

Bertho Tantular - 18

Praktikum Analisis Data Multivariat II Menggunakan Software R Berikut adalah hal-hal yang perlu dilakukan dalam analisis faktor Mengidentifikasikan struktur Menentukan jumlah faktor (scree plot, eigen values, proporsi varians) Menduga parameter (factor loading dan sistematik varians) - Metode Komponen Utama - Metode Kemungkinan Maksimum - Metode Kuadrat Terkecil Rotasi faktor (ortogonal: varimax, quartimax, equimax; oblique: oblimax, quartimin, oblimin) Interpretasi faktor (eigen values, explained variances, factor scores, koefisien faktor)

2. Analisis Faktor dalam R Analisis Faktor dalam software R dapat dianalisis melalui fungsi factanal(). Fungsi factanal() adalah analisis ekstraksi faktor menggunakan metode kemungkinan maksimum. Dalam software R, penjelasan tentang model analisis faktor adalah sebagai berikut

x=Λf+e

dengan x adalah vektor berukuran (p x 1), Λ adalah matriks loading berukuran (p x k), f adalah vektor skor faktor berukuran (k x 1) dan e adalah galat berukuran (p X 1). Dalam model ini tidak ada komponen yang terobservasi kecuali x. Asumsi yang mendasari model ini adalah bahwa faktor tidak saling berkorelasi, dan bahwa galat saling bebas dengan varians phi yang disebut ”uniquenesses”. Kemudian dalam analisi faktor model bagi matriks varians-kovarians x adalah

Σ=Λ'Λ +Ψi

Apabila dilakukan rotasi terhadap data maka Λ dapat digantikan dengan GΛ untuk setiap Bertho Tantular - 19

Praktikum Analisis Data Multivariat II Menggunakan Software R matriks G yang ortogonal. Input data berupa matriks varians-kovarians dapat digunakan dalam analisis faktor. Selain itu matriks data X juga dapat digunakan atau berupa formula yang menyatakan model konstruk dalam bentuk matriks sehingga dapat diperoleh dari matriks data tersebut matriks varians-kovariansnya. Yang perlu diperhatikan dalam hal ini adalah bahwa semua nilai-nilai dalam variabel-variabel yang terlibat harus numerik. Dalam analisis menggunakan fungsi factanal, matriks varians-kovarians dikonversi menjadi matriks korelasi. Model fit diperoleh dengan mengoptimasi fungsi log likelihood dibawah asumsi uniquenesses berdistribusi multivariat normal. Nilai uniquenesses secara teknis berada dalam interval [0, 1], tetapi apabila nilainya mendekati nol akan menjadi masalah, dan optimalisasi berakhir dengan batas bawah 0.005. Nilai faktor skor hanya dapat diperoleh apabila yang digunakan adalah matriks data. Metode yang digunakan adalah metode regresi dari Thomson (1951) dan metode weighted least squares (WLS) dari Bartlett (1937). Kedua metode ini menaksir nilai skor F. Metode Thomson menaksir F dengan model sebagai berikut

−1 F ='  X

dan kemudian menggantikan nilai-nilai parameter dengan penaksirnya. Prinsip Metode Bartlett adalah meminimumkan jumlah kuadrat galat yang sudah dibakukan atau diboboti. Uraian berikut ini adalah penjelasan syntax dan cara penggunaannya.

> factanal(x, factors, data = NULL, covmat = NULL, n.obs = NA, subset, na.action, start = NULL, scores = c("none", "regression", "Bartlett"), rotation = "varimax", control = NULL, ...)

Keterangan:

Bertho Tantular - 20

Praktikum Analisis Data Multivariat II Menggunakan Software R x:

berupa formula atau matriks numerik dari objek

factors:

banyak faktor yang digunakan.

data:

adalah data frame yang digunakan apabila x berupa formula.

covmat:

adalah matriks varians-kovarians dalam hal ini matriks korelasi

juga termasuk matriks varians-kovarians. n.obs:

banyaknya pengamatan dari data, opsi ini digunakan apabila opsi ‘covmat’ adalah matriks kovarians.

subset:

Spesifikasi pengamatan yang digunakan. Digunakan apabila opsi ‘x’ digunakan sebagai matriks data atau formula.

na.action:

opsi untuk data hilang, digunakan apabila opsi 'x' berupa formula

start:

dengan nilai default ‘NULL’ adalah matriks yang berisi nilai awal dengan tiap kolom merupakan set awal uniquenesses.

scores:

nilai skor. Ada dua tipe yaitu "regression" bila menggunakan

metode Thompson, dan "Bartlett"’ bila menggunakan metode Bartlett's weighted least-squares rotation:

tipe rotasi yang digunakan, secara default bernilai "none"

Nilai-nilai hasil analisis faktor menggunakan fungsi factanal

loadings:

menampilkan matriks loading faktor yang terurut dari besar

ke kecil berdasarkan jumlah kuadrat loading.. uniquenesses:

menampilkan nilai uniquenesses.

correlation:

menampilkan matriks korelasi yang digunakan.

criteria:

hasil dari optimalisasi yaitu nilai -2 log-likelihood dan informasi iterassi yang digunakan

factors:

The argument ‘factors’.

dof:

menampilkan nilai derajat kebebasan model analisis faktor

Bertho Tantular - 21

Praktikum Analisis Data Multivariat II Menggunakan Software R method:

metode yang digunakan (dalam hal ini adalah "mle").

scores:

menampilkan matriks faktor skor

n.obs:

banyak pengamatan.

STATISTIC, PVAL:

menampilkan nilai signifikansi statistik uji dan p-value.

Dalam analisis faktor ada banyak variasi penggunaannya sehingga sulit bagi kita untuk membandingkan output dari program yang berbeda-beda. Bagaimanapun metode optimalisasi dalam analisis faktor menggunakan maximum likelihood cukup sulit.

Syntax berikut adalah contoh pengunaannya

> fit print(fit, digits=2, cutoff=.3, sort=TRUE)

# Output analisis faktor

> load plot(load,type="n")

# plot faktor 1 dan faktor 2

> text(load,labels=names(mydata),cex=.7)

# menambahkan nama variabel

Contoh Kasus 1 Dalam suatu studi consumer-preference diambil sampel acak dari sejumlah konsumen. Kepada mereka ditanyakan mengenai 5 atribut dari sebuah produk baru. Respon dari konsumen menggunakan skala 7 semantik differensial, yang hasilnya telah dihitung menjadi matriks korelasi berikut ini (Johnson & Wichern, 2002 halaman 487)

Atribut (Variabel)

1

2

3

4

5

Taste

1

0.02

0.96

0.42

0.01

Good buy for money

0.02

1

0.13

0.71

0.85

Flavor

0.96

0.13

1

0.5

0.11

Suitable for snack

0.42

0.71

0.5

1

0.79

Provides lots energy

0.01

0.85

0.11

0.79

1 Bertho Tantular - 22

Praktikum Analisis Data Multivariat II Menggunakan Software R

Lakukan analisis faktor terhadap matriks korelasi dari 5 variabel tersebut

Sebelum menganalisis data tersebut perlu diinputkan dulu matriks korelasinya dengan cara sebagai berikut

> mc mc [,1] [,2] [,3] [,4] [,5] [1,] 1.00 0.02 0.96 0.42 0.01 [2,] 0.02 1.00 0.13 0.71 0.85 [3,] 0.96 0.13 1.00 0.50 0.11 [4,] 0.42 0.71 0.50 1.00 0.79 [5,] 0.01 0.85 0.11 0.79 1.00

Kemudian analisis faktor menggunakan perintah sebagai berikut

> fit fit Call: factanal(factors = 2, covmat = mc)

Uniquenesses: [1] 0.028 0.237 0.040 0.168 0.052

Loadings: Factor1 Factor2 [1,]

0.985

Bertho Tantular - 23

Praktikum Analisis Data Multivariat II Menggunakan Software R [2,]

0.873

[3,]

0.131

0.971

[4,]

0.817

0.405

[5,]

0.973

Factor1 Factor2 SS loadings

2.396

2.078

Proportion Var

0.479...


Similar Free PDFs