5 Planning the Te st

TEST SPECIFICATIONS The firmest basis for the construction of' a good. test is a set of explicit specifications that indicate the following: forms of test items to be used number of items of each form kinds of tasks the items will present number of tasks of each kind areas of content to be sampled number of items in each area level and distribution of item difficulty Dasar firmest untuk pembangunan 'yang baik. tes adalah seperangkat spesifikasi eksplisit yang menunjukkan sebagai berikut: bentuk item pengujian yang akan digunakan jumlah item dari setiap jenis tugas bentuk item akan menampilkan beberapa tugas masingmasing daerah jenis konten yang akan sampel jumlah item dalam setiap tingkat daerah dan distribusi kesulitan item Test specifications of this kind are useful not only in guiding the constructor of the test, but also in informing students what they may expect to find on the examination and how they can best prepare to do well on it. That information is likely to enhance the value of the test as an incentive to learning. If it is not provided, the examinees may claim, with some justice, that the test was unfair. Uji spesifikasi jenis ini tidak hanya berguna dalam memandu uji konstruksi, tetapi juga menginformasikan kepada siswa apa yang mereka dapat berharap untuk menemukan pada pemeriksaan tersebut dan bagaimana mereka dapat terbaik mempersiapkan diri untuk

melakukannya dengan baik di atasnya. informasi itu mungkin untuk meningkatkan nilai tes sebagai insentif untuk belajar. Jika tidak disediakan, peserta ujian dapat mengklaim, dengan beberapa keadilan, bahwa tes ini tidak adil. one of the devices that has been used to outline the coverage of a test, as part of the test specifications, is the two-way grid, sometimes called a "test blueprint." The several major areas of content to be covered by the test are assigned to the several rows (or columns) of the grid. The several major kinds of abilities to be developed are assigned to the columns (or rows). Each item may then be classified in one of the cells of the grid. Various numbers of items are assigned to each of the rows and columns. Knowing the proportion of items specified for a particular row and for a particular column, one can ideally determine the proportion of items appropriate for the cell formed by that row and that column. salah satu perangkat yang telah digunakan untuk menguraikan cakupan tes, sebagai bagian dari spesifikasi tes, adalah grid dua arah, kadangkadang disebut cetak biru tes "." Bidang utama beberapa konten yang akan dicakup oleh tes yang ditetapkan ke beberapa baris (atau kolom) dari grid. Jenis-jenis utama beberapa kemampuan untuk dikembangkan adalah ditugaskan ke kolom (atau baris). Kemudian, setiap item dapat diklasifikasikan dalam salah satu sel dari grid. Berbagai jumlah item telah diserahkan kepada masing-masing baris dan kolom. Mengetahui proporsi item untuk suatu baris tertentu dan untuk kolom tertentu, yang idealnya dapat menentukan proporsi item yang sesuai untuk sel yang dibentuk oleh baris dan kolom tersebut. The two-way grid is a good first step toward balance in a test. But it has limitations. For some tests a one-dimensional classification of items may be entirely adequate. Others may require three or four. There is some tendency for content to be related to goals or abilities. Hence the assumption that every cell should be represented by at least one item can be unwarranted. Since the number of cells in the chart equals the number of content areas multiplied by the number of educational goals, there is often a fairly large number of such cells. This leads to a more refined classification of items and a more difficult task of classifying them than may actually be necessary to produce a balanced test.

Grid dua arah adalah langkah pertama yang baik terhadap keseimbangan dalam ujian. Yang memiliki keterbatasan. Untuk beberapa tes klasifikasi satu-dimensi dari item mungkin sepenuhnya memadai. Orang lain mungkin membutuhkan tiga atau empat. Ada beberapa kecenderungan untuk konten yang terkait dengan tujuan atau kemampuan. Oleh karena itu SI ¬ assump bahwa setiap sel harus diwakili oleh setidaknya satu item bisa tidak beralasan. Karena jumlah sel dalam tabel sama dengan jumlah area konten dikalikan dengan jumlah tujuan pendidikan, sering kali dalam jumlah yang relatif besar sel tersebut. Hal ini menyebabkan kation ¬ lebih halus klasifi barang dan tugas yang lebih sulit daripada mengklasifikasikan mereka sebenarnya mungkin diperlukan untuk menghasilkan tes seimbang. Another problem in using this device arises from difficulty in providing clear definitions of the categories involved, particularly the goal or ability categories. Content categories, on the other hand, are usually simpler to deal with. In a test for a course in consumer mathematics, for example, it is quite easy to tell whether a given item deals mainly with insurance or with taxation. It is much more difficult to decide whether it deals more with the ability to weigh values than it does with the ability to spend money wisely. Experience suggests that the reliability of a classification of test items in the usual two-way grid may be quite low, especially along the goal or ability dimension. Masalah lain dalam menggunakan perangkat ini muncul dari kesulitan dalam provid ¬ ing definisi yang jelas dari kategori yang terlibat, khususnya tujuan atau kategori kemampuan. Kategori Isi, di sisi lain, biasanya sederhana untuk menangani. Dalam tes untuk kursus matematika konsumen, misalnya, sangat mudah untuk mengatakan apakah sebuah item yang diberikan terutama berkaitan dengan asuransi atau dengan perpajakan. Adalah jauh lebih sulit untuk memutuskan apakah lebih berurusan dengan kemampuan untuk mempertimbangkan nilai-nilai daripada yang dilakukannya dengan kemampuan untuk membelanjakan uang secara bijaksana. Pengalaman menunjukkan bahwa keandalan klasifikasi item pengujian dalam grid dua arah yang biasa mungkin sangat rendah, khususnya di sepanjang tujuan atau kemampuan dimensi. One way of reducing this difficulty is to classify test items in terms of their overt characteristics as verbal objects instead of on the basis of educational goals to which they seem to relate or mental abilities they presumably require. Another step toward making the

measurement of balance more workable is to forego the fine detail in classification demanded bN the two-way grid. Instead, one could settle for separate specifications of the desired weighting on each basis for dassifying the items, such as item type or content area. To guide test construction effectively and to inform prospective examinees adequately, the specifications need to be fairly detailed. To answer the question, How detailed? We might pose another question: Salah satu cara untuk mengurangi kesulitan ini adalah untuk mengklasifikasikan item pengujian dalam hal karakteristik terbuka mereka sebagai obyek verbal bukan atas dasar tujuan edu ¬ cational yang mereka tampaknya berhubungan atau kemampuan mental mereka dengan kemampuan ¬ presum membutuhkan. Lain langkah menuju membuat pengukuran saldo lebih dapat diterapkan adalah dengan mengorbankan detail baik dalam klasifikasi menuntut BN grid dua arah. Sebaliknya, orang bisa puas dengan spesifikasi yang terpisah dari bobot yang diinginkan pada setiap dasar dassifying item, seperti jenis item atau area konten. Untuk panduan konstruksi tes secara efektif dan untuk menginformasikan calon mantan-aminees memadai, spesifikasi harus cukup rinci. Untuk menjawab pertanyaan, Bagaimana rinci? Kita bisa mengajukan pertanyaan lain:

7 1 EXHIBIT SPECIFICATIONS FOR A COLLEGE-LEVEL TEST OF UNDERSTANDING OF EDUCATIONAL MEASUREMENTS If they were the item forms, kinds of tasks, areas of content, and item difficulties. Exhibit 5-2 illustrates the kinds of tasks that will make up the test. Each of these test characteristics will be discussed in greater detail in the pages that follow. Bukti SPESIFIKASI UNTUK TEST COLLEGE-PENGERTIAN DARI TINGKAT PENDIDIKAN Pengukuran


Jika mereka bentuk item, jenis tugas, bidang konten, dan kesulitan item. Bagan 5-2 menggambarkan jenis-jenis tugas yang akan membuat tes. Masing-masing karakteristik pengujian akan dibahas secara lebih rinci pada halaman-halaman berikut.

EXHIBIT 5-2. EXAMPLES OF KINDS OF TASKS 1 Terminology (statistical techniques) What is meant by the term "error of measurement" as it is used by technically trained specialists? a. Any error in test construction, administration, scoring, or interpretation that causes a person to receive different scores on two tests of the same trait. b. A test score that is unreliable or invalid as a result of (1) sampling errors in test construction, (2) performance errors on the part of the examinee, or (3) evaluation errors on the part of the scorer. c. The difference between a given measurement and an estimate of the theoretical true value of the quantity measured. d. The difference between the obtained score and the predicted score on a trait for a person. 2. Factual information (educational aptitude) How does one determine a child's mental age on the Stanford-Binet kal e ? a. By dividing the number of tests passed by the child's age in years. b. By giving a specified number of months of credit for each test passed. c. By noting the highest level at which the child answers all tests correctly. d. By noting the highest level at which the child answers any test correctly. 3. Generalization (educational aptitude) Expert opinion today assigns how much weight to heredity as a determiner of intelligence? a. Less weight than in 1900 b. More weight than in 1900 c. All of the weight d. None of the weight

4 Explanation (personality and adjustment) Why is the Rorschach Test regarded as a projective test? a Because scores on the test provide accurate projections of future performance. b. Because the examinee unintentionally reveals aspects of his own personality in the responses he makes. c. Because the stimulus material is ordinarily carried on slides that must be projected for viewing. d. Because the test is still in an experimental. developmental phase. 5 Calculation (educational aptitude) What is the I.Q. of an eight-year-old child whose mental age is 10 years? A 80 b. 90 c 125

FORMS OF OBJECTIVE TEST ITEMS The most commonly used kinds of objective test items are multiplechoice, true-false, matching, dassification, and short-answer. Many other varieties have been described in more comprehensive catalogs of objective test items.' However, most of these special varieties have limited merit and applicability. Their unique features do more to change the appearance of the item, and often to increase the difficulty of using it, than to improve the item as a measuring instrument. BENTUK ITEM TEST TUJUAN Jenis yang paling umum digunakan item tes objektif pilihan ganda, benar-salah, pencocokan, dassification, dan pendek-jawaban. Banyak varietas lain telah dijelaskan dalam katalog komprehensif lebih dari item tes objektif. " Namun, kebanyakan varietas khusus telah membatasi manfaat dan penerapan. fitur unik mereka berbuat lebih banyak untuk mengubah tampilan item, dan sering untuk meningkatkan kesulitan menggunakannya, daripada memperbaiki item tersebut sebagai alat ukur. Two special item types that have achieved some popularity, the true-false with correction and the multiple-response variation of the multiple-choice item, are displayed in Exhibit 5-3. The disadvantages of both appear to outweigh their advantages. Presumably the corrected true-false item is

less subject to guessing than the ordinary true-false item and tests recall as well as recognition. However, the added difficulty and uncertainty involved in scoring student responses to it more than offsets whatever slight reduction in guessing or slight increase in recall testing the item might produce. The multiple-response item is essentially a collection of true-false statements. If the statements were presented and scored as independent true-false statements, they would yield more detailed and reliable information concerning the state of the examinee's knowledge than they can do in multiple-response form. Those critics who urge test makers to abandon the "traditional" multiple-choice and true-false forms and to invent new forms to measure a more varied and more significant array of educational achievement have failed to grasp two important points: Dua jenis item khusus yang telah mencapai popularitas tertentu, benarbenar dengan koreksi dan beberapa variasi respons dari item pilihan ganda, ditampilkan dalam Bagan 5-3. Kelemahan kedua tampaknya lebih besar daripada keuntungan mereka. Mungkin item yang benarsalah dikoreksi kurang tunduk pada menebak dari item yang benar-salah ingat biasa dan tes serta pengakuan. Namun, kesulitan tambah dan ketidakpastian yang terlibat dalam skor tanggapan siswa untuk lebih dari apa pun yang sedikit offset ¬ SI reduc dalam menebak atau sedikit peningkatan dalam mengingat pengujian item bisa menghasilkan. Beberapa item-respons pada dasarnya adalah kumpulan negara benarsalah ¬ sia. Jika laporan tersebut dicatat dan dinilai sebagai laporan independen benar-salah, mereka akan menghasilkan lebih rinci dan dapat diandalkan informasi tentang keadaan pengetahuan yang diuji daripada yang dapat mereka lakukan dalam bentuk multiple-response. Para kritikus yang mendesak para pembuat tes untuk meninggalkan "tradisional" bentuk-bentuk pilihan ganda dan benar-salah dan menciptakan bentuk-bentuk baru untuk mengukur lebih bervariasi dan lebih signifikan array pencapaian pendidikan telah gagal untuk memahami dua hal penting:

1. Any aspect of cognitive educational achievement can be tested by either the multiple-choice or the true-false form. 2. What a multiple-choice or true-false item measures is determined much more by its content than by its form. 1. Setiap aspek pencapaian pendidikan kognitif dapat diuji dengan baik pilihan ganda-atau bentuk benar-salah.

2. Betapa tindakan item pilihan ganda atau benar-salah lebih ditentukan oleh isinya daripada bentuk. Multiple-choice and true-false test items are widely applicable to a greatvariety of tasks. Because of this, and because of the importance of developing skill it using each form effectivel . separate chapte s ,ur de-voted to true-false and multiple-choice item forms later in this text. Multiple-item tes pilihan dan benar-salah secara luas diterapkan pada greatvariety tugas. Karena itu, dan karena pentingnya menggunakan masing-masing bentuk.mengembangkan keterampilan i t effectivel item pilihan ganda nanti dalam teks ini. BAB terpisah s, ur de-memutuskan untuk benar-salah dan bentuk  The multiple-choice form of test item is relatively high itt ability to discriminate between better and poorer students. It is somewhat more difficult to write than some other item types, but its advantages seem so apparent that it has become the type most widely used it tests constructed by specialists. Theoretic-ails. and this has been verified it practice, a multiple-choice test with a given number of items can be expected to show as much reliability in its scores as a typical true-false test with almost twice that number of items. I Jere is an example of the multiple-choice IN pc. Bentuk pilihan ganda soal tes relatif tinggi itt kemampuan untuk membedakan antara siswa yang lebih baik dan lebih miskin. Hal ini agak lebih sulit untuk menulis dari beberapa jenis item lainnya, namun keuntungannya tampak begitu jelas bahwa hal itu telah menjadi jenis yang paling dibangun oleh para spesialis.banyak digunakan tes t i Teoritik-Sakit. dan praktek t, uji pilihan mul tiple-¬ denganini telah diverifikasi i sejumlah tertentu barang yang bisa diharapkan untuk menunjukkan sebagai keandalan banyak skor sebagai tes benar-salah khas dengan hampir dua kali lipat jumlah item. Aku Jere adalah contoh dari beberapa pilihan-IN pc. Directions: Write the number of the best answer to the question on the line at the right of the question. Example: Which is the most appropriate designation for a government

in which control is in the hands of a few men? 1. Autonomy 2. Bureaucracy 3. Feudalism 4. Oligarchy



Directions: Tuliskan jumlah jawaban terbaik untuk pertanyaan pada baris di sebelah kanan pertanyaan. Contoh: Manakah adalah sebutan paling tepat bagi pemerintah di mana kendali di tangan beberapa orang? 1. Otonomi 4 2. Birokrasi 3. Feodalisme 4. Oligarki The true-false item is the simplest to prepare and is also quite widel adaptable. It tends to be less discriminating, item for item, than the multiple-choice type, and somewhat more subject to ambiguity and misinterpretation. Although theoretically a high proportion of true-false items could be answered correctly by blind guessing, in practice the error introduced into true-false test scores by blind guessing tends to be small. This is true because well-motivated examinees taking a reasonable test do \er\ little blind guessing. They almost always find it possible to give a rational answer and much more advantageous to do so than to guess blindly. The problem of guessing on true-false test questions will be discussed in greater detail in Chapter 7. Here is an example of the true-false form. item benar-salah adalah sederhana untuk mempersiapkan dan juga cukup widel beradaptasi. Ini cenderung kurang diskriminatif, item untuk item, dari jenis mul-tiple-pilihan, dan agak lebih tunduk pada ambiguitas dan pretation ¬ misinter. Meskipun secara teoritis proporsi tinggi item benar-salah dapat dijawab dengan benar oleh menebak buta, dalam prakteknya intro ¬ kesalahan diproduksi menjadi nilai tes benarsalah dengan buta menebak cenderung kecil. Hal ini benar karena ujian baik termotivasi melakukan tes masuk akal melakukan er \ \ menebak sedikit buta. Mereka hampir selalu merasa mungkin untuk memberikan jawaban yang rasional dan jauh lebih menguntungkan untuk melakukannya daripada menebak membuta. Masalah menebak pada pertanyaan tes benar-salah akan dibahas secara lebih rinci dalam Bab 7. Berikut adalah contoh dari bentuk benar-salah.

Directions: If the sentence is essentially true, encircle the letter "T" at the right of the sentence. If it is essentially false, encircle the letter "F." Example: A substance that serves as a catalyst in a chemical reaction may be recovered unaltered at the end of the reaction. Petunjuk: Jika kalimat pada dasarnya benar, mengelilingi huruf "T" di bagian kanan kalimat. Jika dasarnya adalah palsu, mengelilingi huruf "F." Contoh: Sebuah zat yang berfungsi sebagai katalis dalam reaksi kimia dapat kembali berubah pada akhir reaksi. The matching type is efficient in that an entire set of responses can be used with a cluster of related stimulus words. But this is also a Iimitatior since it is sometimes difficult to get dusters of questions or stimulus words that are sufficiently similar to make use of the same set of responses Further, questions whose answers can be no more than a word or a phrase tend to be somewhat superficial and to place a premium on purely verbalistic learning. An example of the matching type is given here. Jenis pencocokan ini efisien dalam bahwa seluruh rangkaian tanggapan dapat digunakan dengan sekelompok kata stimulus terkait. Tapi ini juga Iimitatior sejak

