การเปรียบเทียบประสิทธิภาพการตรวจสอบการทำหน้าที่ต่างกันของข้อสอบ แบบให้คะแนนหลายค่า โดยวิธีทดสอบอัตราส่วนความควรจะเป็น วิธีเบส์เซียน และวิธีโพลี-ซิปเทสท์

อาวีพร, ปานทอง

การเปรียบเทียบประสิทธิภาพการตรวจสอบการทำหน้าที่ต่างกันของข้อสอบ แบบให้คะแนนหลายค่า โดยวิธีทดสอบอัตราส่วนความควรจะเป็น วิธีเบส์เซียน และวิธีโพลี-ซิปเทสท์

อาวีพร, ปานทอง

URI: http://dspace.bru.ac.th/xmlui/handle/123456789/5302

Date: 2560

Abstract:

การวิจัยครั้งนี้มีวัตถุประสงค์เพื่อเปรียบเทียบอัตราความคลาดเคลื่อนประเภทที่ 1 และอำนาจการทดสอบของ การตรวจสอบการทำหน้าที่ต่างกันของข้อสอบที่ให้คะแนนหลายค่า โดยวิธีทดสอบอัตราส่วนความควรจะเป็น วิธีเบส์เซียน และวิธีโพลี-ซิปเทสท์ ภายใต้ปัจจัยที่แปรเปลี่ยน 4 ปัจจัย ข้อมูลที่ศึกษาเป็นข้อมูลจำลองโดยใช้โมเดลพาเชียลเครดิตทั่วไป ภายใต้ทฤษฎีการตอบสนองข้อสอบ จำลองแบบทดสอบที่มีโครงสร้างวัดความสามารถมิติเดียว โดยข้อสอบแต่ละข้อวัด ความสามารถหลักข้อสอบทุกข้อมีตัวเลือกให้เลือกจำนวน 5 ตัวเลือก ในการจำลองข้อมูลผลการตอบภายใต้ปัจจัยที่แตก ต่างกัน คือ ความยาวของแบบสอบ 3 รูปแบบ ขนาดของการทำหน้าที่ต่างกันของข้อสอบ 3 ขนาด ความแตกต่างของการ แจกแจงความสามารถ 2 ระดับ และขนาดตัวอย่าง 3 รูปแบบ รวมข้อมูลทั้งหมดที่ต้องจัดกระทำจำ นวน 54 เงื่อนไข (3 × 3 × 3 × 2) ในแต่ละเงื่อนไขจำลองข้อมูลทำซํ้า 500 รอบ ผลการวิจัยพบว่า เมื่อความยาวของข้อสอบและขนาด ตัวอย่างเพิ่มขึ้น วิธีทดสอบอัตราส่วนความควรจะเป็น และวิธีเบส์เซียน สามารถควบคุมความคลาดเคลื่อนประเภทที่ 1 ได้ดีกว่าวิธีโพลี-ซิปเทสท์ โดยภาพรวมวิธีทดสอบอัตราส่วนความควรจะเป็น และวิธีเบส์เซียนมีอัตราความคลาดเคลื่อน ประเภทที่ 1 และอำนาจการทดสอบใกล้เคียงกัน และอยู่ในเกณฑ์ที่กำหนดมากกว่าวิธีโพลี-ซิปเทสท์ ผลการศึกษาครั้งนี้ เสนอแนะให้ใช้วิธีทดสอบอัตราส่วนความควรจะเป็น และวิธีเบส์เซียนเนื่องจากสามารถควบคุมอัตราความคลาดเคลื่อน ประเภทที่ 1 ได้ และมีอำนาจการทดสอบสูง

The purpose of this research was to compare Type I error rate and the power of likelihood ratio test (LRT), Bayesian, and the Poly-SIBTEST procedures in the detecting of differential item functioning (DIF) for polytomous scored items. In this study, data were simulated under the generalized partial credit model, and responses were simulated from one dimensional test. All items were in five response categories scoring. These data were simulated under a variety of four factors: three levels forms of length test, three levels forms of DIF magnitudes, two levels of ability distribution differences, and three levels of sample size proportions. A total of 54 (3x3x3x2) conditions were studied. The data were replicated 500 times for each condition. Results of the study were as follows: When length test increased, LRT and Bayesian procedure had better control of type I error rate than Poly-SIBTEST procedure. In general, the Type I error rates of LRT and Bayesian procedures were within the nominal limits. They were higher power than Poly-SIBTEST procedures. The results of this study suggested LRT and Bayesian procedures to control the Type I error rate and high power.

Show full item record