ANALISIS ITEM DENGAN PENDEKATAN IRT (DENGAN BANTUAN APLIKASI PROGRAM BILOG-MG PDF

Title ANALISIS ITEM DENGAN PENDEKATAN IRT (DENGAN BANTUAN APLIKASI PROGRAM BILOG-MG
Author Fri Yatmi
Pages 19
File Size 2.2 MB
File Type PDF
Total Downloads 286
Total Views 612

Summary

Friyatmi/09701251016 ANALISIS ITEM DENGAN PENDEKATAN IRT (DENGAN BANTUAN APLIKASI PROGRAM BILOG-MG) A. PENDAHULUAN Analisis butir soal secara modern menggunakan Item Response Theory (IRT) merupakan suatu teori yang menggunakan fungsi matematika untuk menghubungkan antara peluang menjawab benar suatu...


Description

Accelerat ing t he world's research.

ANALISIS ITEM DENGAN PENDEKATAN IRT (DENGAN BANTUAN APLIKASI PROGRAM BILOG-MG Fri Yatmi

Related papers

Download a PDF Pack of t he best relat ed papers 

Analisis Kemampuan Siswa Menggunakan Teori Respons But ir (It em Response T heory) rizkinor amelia

JURNAL KARAKT ERIST IK BUT IR SOAL UJIAN SEMEST ER KIMIA DAN KEMAMPUAN SISWA MENGGUNA… Melly Elvira, melly elvira Implement asi It em Response T heory sebagai Basis Analisis Kualit as But ir Soal dan Kemampuan Kimi… rizkinor amelia

Friyatmi/09701251016

ANALISIS ITEM DENGAN PENDEKATAN IRT (DENGAN BANTUAN APLIKASI PROGRAM BILOG-MG)

A. PENDAHULUAN Analisis butir soal secara modern menggunakan Item Response Theory (IRT) merupakan suatu teori yang menggunakan fungsi matematika untuk menghubungkan antara peluang menjawab benar suatu soal dengan kemampuan siswa. Hambleton & Swaminathan (1985: 9-10) menyatakan teori respons butir atau Item Respon Theory (IRT) merupakan salah satu cara untuk menilai kelayakan butir dengan membandingkan rerata penampilan butir terhadap tampilan bukti kemampuan kelompok yang diramalkan oleh model. Tujuan utama teori respons butir dikembangkan adalah untuk mengatasi kelemahan teori tes klasik yang tidak independent terhadap kelompok peserta yang mengerjakan tes maupun terhadap tes yang diujikan. Hambleton Swaminathan, & Rogers (1991: 5) mengungkapkan secara umum ciri-ciri respon butir diantaranya adalah; 1) karakteristik butir tidak tergantung peserta ujian, 2) skor yang digambarkan peserta ujian tidak tergantung pada tes, 3) model yang lebih menekankan pada tingkat butir daripada tes, 4) tidak mensyaratkan secara ketat tes paralel untuk menaksir reliabilitas, dan 5) menguraikan sebuah ukuran keputusan untuk tiap skor kemampuan yakni ada hubungan fungsional antara peserta tes dengan tingkat kemampuan yang dimiliki. Terdapat beberapa model pengukuran yang biasanya dipakai dalam melakukan analisis butir soal menurut IRT. Pemilihan model yang tepat akan mengungkap keadaan yang sebenarnya dari data tes sebagai hasil pengukuran. Salah satu model analisis butir dengan IRT adalah menggunakan tiga model logistik. Model pengukuran tersebut dibedakan berdasarkan jumlah parameter butir yang dimasukkan ke dalam model, yaitu model satu parameter logistik (1-PL), dua parameter logistik (2-PL), dan tiga parameter parameter logistik (3-PL). Pada model logistik satu parameter, probabilitas peserta tes untuk menjawab benar suatu butir soal ditentukan oleh satu karakteristik butir, yaitu indeks kesukaran Analisis Item dengan Pendekatan IRT

Page 1

Friyatmi/09701251016 butir. Model logistik dua parameter, probabilitas peserta tes untuk menjawab benar suatu butir soal ditentukan oleh dua karakteristik butir, yaitu indeks kesukaran dan indeks daya beda. Sementara model logistik tiga parameter ditentukan oleh tiga karakteristik butir, yaitu indeks kesukaran butir soal, indeks daya pembeda, dan parameter tebakan semu. Analisis item menggunakan IRT haruslah memenuhi asumsi yang disyaratkan. Asumsi yang umum digunakan secara luas oleh model-model IRT ialah asumsi unidimensional, local independent dan invarian parameter. Dalam laporan ini, pengujian asumsi secara empiris hanya dilakukan untuk memenuhi asumsi unidimensi. Unidimensi artinya dimensi karaktersitik peserta yang diukur oleh tes itu tunggal. Tes yang telah diukur diharapkan hanya mengukur satu karakter atau kemampuan saja. Namun dalam kenyataanya sangat sulit untuk mengukur satu karakter saja mengingat adanya berbagai faktor yang mempengaruhi hasil pengukuran seperti faktor kognitif, kepribadian, kecemasan, motivasi, kemampuan bertindak cepat, dan tendensi menebak jawaban. Oleh karena itu untuk memenuhi asumsi faktor yang paling dominan mempengaruhi kinerja tes dibandingkan dengan tujuan disusunnya suatu tes. Apabila faktor dominan yang muncul sudah sesuai dengan tujuan disusunnya suatu tes maka asumsi unidimensi telah terpenuhi. Dalam tugas ini, kemampuan yang dianalisis adalah kemampuan siswa menguasai kompetensi pada mata pelajaran Matematika Sekolah Menengah Atas (SMA) yang sesuai dengan Standar Kompetensi Lulusan Ujian Nasional Matematika SMA tahun pelajaran 2009/2010 sebagaimana yang tertuang dalam Permendiknas nomor 75 tahun 2009. Data berasal dari tes Uji Coba Ujian Nasional Matematika 2009/2010 putaran 1 di SMAN 3 Yogyakarta. Soal pada tes tersebut dibuat oleh Tim MGMP Matematika provinsi Yogyakarta yang memuat 40 item soal berbentuk pilihan ganda dan tes ujicoba UN di SMAN 3 Yogyakarta diikuti oleh 217 testee/siswa. Analisis item ini bertujuan untuk mengetahui karakteristik/kualitas butir yang baik secara empiris. Uji asumsi yang digunakan juga dibatasi

untuk uji asumsi

unidimensi saja, sementara asumsi indepensi lokal dan invarians tidak diuji.

Analisis Item dengan Pendekatan IRT

Page 2

Friyatmi/09701251016 B. ANALISIS DATA 1. Pengujian Asumsi Unidimensi Pengujian unidimensi dilakukan untuk mengetahui apakah tes yang digunakan mengukur satu macam trait yaitu mengukur kemampuan siswa SMA pada mata pelajaran matematika. Uji asumsi unidimensi dilakukan melalui analisis faktor menggunakan program SPSS. Analisis faktor menghendaki bahwa matrik data harus memiliki korelasi yang cukup agar dapat dilakukan analisis faktor. Untuk menguji apakah terdapat korelasi antar dimensi digunakan uji Bartlett test of sphericity. Jika hasilnya signifikan berarti berarti matrik korelasi memiliki korelasi signifikan dengan sejumlah dimensi. Uji lain yang digunakan untuk melihat interkorelasi antar variabel dan dapat tidaknya analisis faktor dilakukan adalah dengan measure of sampling adequacy (MSA). Menurut Imam Ghozali (2006: 304) jika ilai M“A

. 5

aka a alisis faktor dapat dilakuka . Hasil uji M“A da uji

Bartlett’s dita pilka dala

ta el erikut:

Tabel 1. Hasil uji Bartlett test of sphericity dan KMO-MSA Kaiser-Meyer-Olkin Measure of Sampling Adequacy. Bartlett's Test of Sphericity

Ta el di atas

e

Approx. Chi-Square

.634 1.594E3

Df

780

Sig.

.000

eri i for asi uji Bartlett’s hasilnya signifikan karena nilai

signifikansinya adalah 0,000 yang berarti bahwa terdapat korelasi antar dimensi. Disa pi g itu, ilai M“A dari data ya g dia alisis

. 5 sehi gga a alisis faktor

dapat diteruskan. Untuk mendapatkan item-item yang mengukur dimensi yang sama, dilakukan proses ekstraksi sehingga dihasilkan beberapa faktor. Banyak faktor

Analisis Item dengan Pendekatan IRT

Page 3

Friyatmi/09701251016 yang terbentuk ditunjukkan oleh komponen yang mempunyai eigenvalue >1 yang terlihat dalam tabel berikut:

Tabel 2. Hasil Ekstraksi Analisis Faktor

Hasil analisis faktor menunjukkan bahwa terdapat 15 faktor yang nilai eigennya lebih dari 1, sehingga dapat dikatakan bahwa 40 item yang dianalisis mengelompok ke dalam 15 faktor. Kelima belas faktor tersebut menjelaskan sekitar 62, 909% dari total varians. Hasil ini menunjukkan bahwa faktor pertama dapat menjelaskan 12,227% dari total varians. Eigenvalue faktor pertama nilainya lebih dari dua kali eigenvalue faktor kedua, sehingga dapat dikatakan bahwa faktor-faktor tersebut telah membentuk faktor yang dominan. Sebagaimana yang dinyatakan oleh Naga (1992: 297) kalau eigenvalue faktor pertama nilai beberapa kali nilai eigenvalue faktor kedua, sedangkan eigenvalue faktor kedua dan seterusnya adalah hampir sama maka dapat dikatakan bahwa syarat unidimensi sudah terpenuhi. Apabila dilihat dari component matrix maka jumlah item yang berkumpul pada faktor pertama sudah dominan yaitu sebanyak 25 item dari 40 item yang dianalisis (62,5%). Gambaran yang lebih jelas dari uji unidimensi ini dapat dilihat pada gambar berikut:

Analisis Item dengan Pendekatan IRT

Page 4

Friyatmi/09701251016

Gambar 1. Scree Plot Analisis Faktor Berdasarkan hasil analisis faktor dan diperjelas dengan scree plot di atas, maka dapat disimpulkan bahwa asumsi unidimensi telah dapat terpenuhi padatugas ini, meskipun dengan standar yang tidak terlalu ketat. Karena pada dasarnya sangat sulit memenuhi syarat unidimensi secara ketat, sebagaimana yang dinyatakan oleh Ha

leto & “ a i atha

5:

pada praktik ya

asumsi unidimensi sulit untuk dipenuhi secara ketat karena adanya faktor lain seperti faktor kognitif, personality, faktor administrasi dalam tes, seperti ke e asa , da

oti asi .

2. Uji Kecocokan Model a. Pemeriksaan tahap awal Sebelum menentukan item yang cocok dengan model, maka perlu dilaksanakan pemeriksaan tahap awal terlebih dahulu. Pemeriksaan tahap awal dilakukan dengan analisis butir secara klasik. Salah satu cara analisis butir secara klasik adalah dengan analisis korelasi biserial. Biasanya butir yang tidak memadai pada analisis butir secara klasik, akan tidak memadai juga pada model IRT (Naga, 1992:296). Dengan demikian sejak awal kita sudah mengambil sikap terhadap semua butir yang tidak memadai tersebut. Jika butir tersebut ditolak, maka mereka tidak usah kita teruskan ke pencocokan model selanjutnya.

Analisis Item dengan Pendekatan IRT

Page 5

Friyatmi/09701251016 Untuk melakukan pemeriksaan tahap awal dapat dianalisis menggunakan program BILOG-MG. Hasil analisis secara klasik dapat diperoleh informasinya dari output BILOG fase 1 yang menginformasikan tentang banyaknya peserta tes yang menjawab benar, proporsi peluang menjawab benar dibagi peluang menjawab salah serta koefisien korelasi biserial. Nilai correlation biserial merupakan representasi dari daya pembeda item (item discriminan). Menurut Ebel & Fresbie (1986: 234) correlation biserial menggambarkan hubungan antara skor pada item tes dan skor pada total tes untuk setiap testee. Biserial yang bernilai positif tinggi menggambarkan kecendrungan testee yang berskor tinggi untuk menjawab benar dan testee yang berskor salah memberikan jawaban. Nilai biserial yang negatif menggambarkan hubungan yang berlawanan, dimana testee yang memiliki skor tinggi salah menjawab item tersebut, sedangkan testee dengan skor rendah benar menjawab item yang bersangkutan. Dalam melakukan analisis item untuk memilih item yang baik, maka item dengan biserial yang negatif sebaiknya dikeluarkan dari model. Bahkan Ebel & Fresbie (1986: 234) menyatakan bahwa item yang memiliki daya pembeda kecil dari 0,2 merupakan item yang tidak bagus. Pendapat yang sama juga diungkapkan oleh Fernandes (1984: 10) yang mengatakan butir yang memiliki daya pembeda lebih besar dari 0,2 dikatakan baik. Merujuk kepada pendapat Ebel & Fresbie dan Fernandes di atas, maka dalam analisis item ini, item dengan korelasi biserial dibawah 0,2 tidak ikut di analisis karena akan mengganggu proses analisis (program BILOG tidak dapat melanjutkan hasil analisis karena adanya hasil yang tidak signifikan). Apabila item yang dikeluarkan hanya item yang memiliki biserial negatif saja, maka berdasarkan analisis yang telah dilaksanakan pada analisis 3-PL datanya tidak komplit di-run sehingga tidak dapat diperoleh informasi yang dibutuhkan. Hasil analisis fase 1 pada program BILOG memberi informasi bahwa terdapat 7 item yang nilai biserialnya dibawah 0.2, termasuk di dalamnya 2 item yang memiliki nilai biserial negatif. Ketujuh item ini tidak diikutkan untuk analisis

Analisis Item dengan Pendekatan IRT

Page 6

Friyatmi/09701251016 agar tidak menganggu tahap selanjutnya baik pada model 1-PL, 2-PL maupun 3-PL. Item tersebut adalah item nomor 1, 18, 24, 26, 27, 29, 37. Setelah tujuh item tersebut dikeluarkan, maka program BILOG dijalankan kembali dengan hanya menganalisis 33 item yang tersisa. Berdasarkan hasil analisis fase 1 yang baru diperoleh informasi bahwa tidak ada lagi item yang memiliki korelasi biserial negatif, sehingga langkah berikutnya dapat dilakukan uji kecocokan model berdasarkan output fase 2.

b. Analisis Kecocokan Model Uji kecocokan model dimaksudkan untuk melihat apakah item-item yang dianalisis sesuai dengan model 1-PL, 2-PL atau 3-PL. Satu cara untuk melihat item yang cocok dengan model adalah menggunakan pengujian statistik chi-square. Pengujian kecocokan model ini dapat dianalisis menggunakan program BILOG. Setelah analisis data dengan program BILOG dilakukan maka pada output fase 2 dihasilkan statistik kecocokan suatu butir dengan model atau goodness of fit statistic. Program BILOG menggunakan statistik uji likelihood ratio chi-square untuk menguji kecocokan model. Item yang cocok adalah item dengan nilai probabilitas chi-square yang signifikan, yaitu item yang memiliki probabilitas chisquare

. 5 karena kriteria yang digunakan dalam kasus ini adalah 0.05).

Berdasarkan nilai probabilitas chi-square pada output fase 2, maka dapat disimpulkan jumlah item yang cocok pada masing-masing model adalah sebagai berikut: Tabel 3. Hasil Analisis Kecocokan Model No. Model Logistik 1. 1-PL

Jumlah item fit 27

% 82%

2.

2-PL

32

97%

3.

3-PL

33

100%

Analisis Item dengan Pendekatan IRT

Nomor item 2,3,4,6,7,8,9,11,12,13,14,15,17,19,20,21,25,28 ,30, 32,33,34,35,36,38,39,40 2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,19,20, 21,22,23,25,28,30,32,33,34,35,36,38,39,40 2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,19,20, 21,22,23,25,28,30,31,32,33,34,35,36,38,39,40

Page 7

Friyatmi/09701251016 Berdasarkan analisis item yang telah dilakukan, maka dapat dilihat bahwa model 3 parameter logistik lebih banyak menghasilkan item yang fit dibanding model 1-PL atau 2-PL. Keseluruhan item yang dianalisis fit dengan dengan model 3 parameter logistik. Sehingga dapat dikatakan untuk melakukan estimasi parameter item uji coba ujian nasional matematika putaran 1 SMAN 3 Yogyakarta lebih cocok di analisis menggunakan IRT dengan model 3 parameter logistik.

C. HASIL ANALISIS ESTIMASI PARAMETER ITEM Teori respon butir memuat dua parameter, yaitu parameter butir dan

parameter peserta. Parameter ciri peserta  menyatakan ciri peserta dengan kemampuan  , sedangkan parameter butir dinyatakan melalui model logistik yang

cocok. Dalam kasus ini karena model yang cocok adalah model 3 paramater, maka estimasi parameter butir dinyatakan dalam bentuk daya beda (ai), indeks kesukaran item (bi), serta tebakan /pseudo guessing (ci). Hasil estimasi parameter tersebut dapat dilihat pada output program BILOG fase 2.

1. Indeks Kesukaran Item (bi) Tingkat kesukaran butir merupakan fungsi dari kemampuan seseorang (Djemari Mardapi, 1991: 11). Seseorang yang memiliki kemampuan tinggi akan merasa mudah mengerjakan butir soal, sebaliknya mereka yang memiliki kemampuan rendah akan merasa sulit menjawab butir soal.

Tingkat kesukaran butir bergerak dari skala    b   pada teori respon

butir. Tapi pada prakteknya butir yang dinyatakan baik adalah butir yang memiliki tingkat kesukaran (bi) berkisar diantara -

+ . Butir ya g

e iliki ti gkat

kesukaran dekat atau di bawah skala -2 menunjukkan butir soal tersebut termasuk kategori mudah. Sedangkan butir yang memiliki tingkat kesukaran (b) dekat atau terletak di atas skala +2,00 menunjukkan butir soal tersebut termasuk kategori sukar (Hambleton, Swaminathan,& Rogers, 1991: 13). Tingkat kesukaran item dari ouput BILOG-MG dapat dilihat pada nilai Threshold di output fase2. Berdasarkan hasil analisis data diperoleh informasi

Analisis Item dengan Pendekatan IRT

Page 8

Friyatmi/09701251016 tingkat kesukaran seluruh item bergerak dari nilai -1,7280 sampai dengan 2.850. Klasifikasi tingkat kesukaran item disajikan sebagai berikut: Tabel 4. Hasil Analisis Parameter Indeks Kesukaran Item

No 1

Indeks kesukaran (bi) bi > 2.0

2

- .

3

bi < -2.0

i

Kategori Kurang baik

.

Jumlah item 4

Baik

29

Kurang baik

0

Total item

Nomor item 19,23,25,32 2,3,4,5,6,7,8,9,10,11,12,13,14,15, 16,17,20,21,22,28,30,31,33,34, 35,36,38,39,40 -

33

Berdasarkan tabel di atas diperoleh informasi bahwa sekitar 88% dari keseluruhan item memiliki tingkat kesukaran yang baik. Informasi ini membuktikan bahwa sekitar 88% dari kesuluruhan butir tes telah mampu menggambarkan fungsi dari kemampuan seseorang. Dimana testee yang memiliki kemampuan tinggi akan merasa mudah mengerjakan butir soal, sebaliknya mereka yang memiliki kemampuan rendah akan merasa sulit menjawab butir soal. Sedangkan 12% lagi memiliki termasuk butir yang sulit karena memiliki indeks kesukaran lebih dari 2.0. Jika tes cenderung sulit artinya sebagian tingkat kemampuan peserta didik cenderung rendah.

2. Parameter Indeks Daya Beda (ai) Parameter indeks daya beda (ai) adalah kemiringan kurva karakteristik butir di titik bi pada skala k emampuan tertentu. Karena merupakan kemiringan, berarti semakin besar kemiringannya maka semakin besar indeks daya beda butir

tersebut. Secara teoritis daya beda butir terletak pada skala    a   . Namun dalam prakteknya nilai ai terletak antara 0 sampai 2 (Hambleton, Swaminathan & Rogers, 1991: 15).

Analisis Item dengan Pendekatan IRT

Page 9

Friyatmi/09701251016 Indeks daya beda item dari ouput BILOG-MG dapat dilihat pada nilai slope yang terdapat di output fase2. Berdasarkan hasil analisis data diperoleh informasi indeks daya beda seluruh item berada pada kisaran nilai 0.638 sampai dengan 3.259. Klasifikasi indek daya beda item dapat dilihat pada tabel berikut:

Tabel 5. Hasil Analisis Indeks Daya Beda Item No 1

Indeks daya beda (ai) ai > 2.0

2

0.0 ai

Kategori Kurang baik

.

Jumlah item 3 30

Baik Total item

Nomor item 22,31,35 2,3,4,5,6,7,8,9,10,11,12,13,14,15, 16,17,19,20,21,23,25,28,30,32, 33,34,36,38,39,40

33

Berdasarkan tabel di atas diperoleh informasi bahwa sekitar 91% item soal memiliki daya pembeda item yang baik. Hal ini membuktikan bahwa sekitar 91% dari keseluruhan item-item tes matematika memiliki kemampuan untuk mempertegas perbedaan di antara peserta yang dapat menjawab dengan benar dan menjawab dengan salah.

3. Parameter Tebakan semu (ci) Parameter ci adalah ciri butir yang berkaitan dengan faktor kebetulan peserta menjawab butir itu dengan benar. Model ini berlaku untuk butir dengan respon yang bersifat dikotomi yaitu butir yang skornya benar dan salah. Parameter ini menggambarkan probabilitas peserta dengan kemampuan rendah menjawab dengan benar suatu butir yang mempunyai indeks kesukaran yang tidak sesuai dengan kemampuan peserta tersebut. Nilai ci berkisar antara 0 sampai 1. Suatu butir dikatakan baik jika nilai ci tidak lebih dari 1/k, dengan k banyaknya pilihan jawaban. Dalam tes matematikan ini karena pilihan jawaban ada 5, maka nilai nilai ci untuk setiap butir hendaknya tidak lebih dari 1/5 atau tidak melebihi 0.2.

Analisis Item dengan Pendekatan IRT

Page 10

Friyatmi/09701251016 Parameter tebakan item dari ouput BILOG-MG dapat dilihat pada nilai asymptote yang terdapat di output fase2. Berdasarkan hasil analisis data diperoleh informasi indeks tebakan seluruh item berada pada kisaran nilai 0,1040 sampai dengan 0,2580. Klasifikasi pseudo guessing item dapat dilihat pada tabel berikut: No 1 2

Tabel 6. Hasil Analisis Tebakan Semu Item Indeks tebakan Kategori Jumlah Nomor item (ci) item ai > 0.20 Kurang 9 2,4,6,13,20,23,28,36,39 baik ai 0.20 Baik 26 3,5,7,8,9,10,11,12,14,15,16,17,19, 21,22,25,30,31,32,33,34,35,38,40

Data dari tabel di atas menginformasik...


Similar Free PDFs