有一個意見是:"I personally find that before assessing test-retest reliability and especially responsiveness in a CAT environment, it is absolutely mandatory to test the whole item bank for time-DIF to see whether the construct itself stays stable over time or whether single items change their difficulties. Especially in a CAT environment, where single items have a higher impact on parameter estimation it should be assured that item parameters are time invariant."
由於我們沒有個案於整個ADL item bank的資料,
所以無法分析項目難度或建構本身是否有time-DIF(不同時間點所獲得的項目難度是否一致,或單向度是否一直能維持)。
最近在一篇paper:Wright B. D. (1996) Comparisons require stability. Rasch Measurement Transactions 10:2 p. 506. 讀到相關的概念。
Wright提的comparisons跟responsiveness(measuring change)比較有關。
他認為經過一段時間,可能會因rater不同、個案能力/特質產生變化,或是個案因曾經做過測驗而較熟悉測驗,因此導致前測和後測的項目難度有些不同。
一般來說,我們會希望很純粹的測量到個案的能力/特質變化。但如果測量個案能力/特質的工具標準(item parameters)有所變化,所測到的變化量就不可靠,因為量尺本身並不穩定。
Wright提出幾種狀況和於這些狀況如何驗證/使用其項目難度:
1. Assertion of constancy: 前後測分數各自驗證,之後再驗證pre-post joint calibration(前後測的分數放在一起做Rasch/IRT分析)。如果三種狀況的項目難度都差不多(並沒有原本簡單的變難,或是原本難的變簡單),可以其中一種狀況的項目難度為主(anchor)。
2. Assertion of difference: 前後測分數各自驗證後,如果項目難度明顯不同,就要把前後測看成二組項目了(pre-test items/post-test items)。這時資料需要重整,前後測本來是同一個項目的,就要當成不同的項目來處理。
3. Assertion of compromise: 如果很明顯的前後測分數是各自少了分數的二極端(前測少了較高能力的分數,後測少了較低能力的分數),就可以將前後測的分數放在一起calibration,以合併後的項目難度為主。
4. Assertion of meaning: 有時因測驗目的不同,須有不同的calibration方式。如:對於不熟悉「希臘文字」的受測者,學習前每個字對他們而言都很難,但學習之後,有些字變簡單,有些字還是很難,所以後測分數的項目難度是比較重要的,因為可以區別簡單和困難的字。然而,如果一項學科,學習後大家都熟悉/精通了,那麼前測分數的項目難度才是主要區別簡單和困難內容的標準。
Wright提的comparisons跟responsiveness(measuring change)比較有關。
他認為經過一段時間,可能會因rater不同、個案能力/特質產生變化,或是個案因曾經做過測驗而較熟悉測驗,因此導致前測和後測的項目難度有些不同。
一般來說,我們會希望很純粹的測量到個案的能力/特質變化。但如果測量個案能力/特質的工具標準(item parameters)有所變化,所測到的變化量就不可靠,因為量尺本身並不穩定。
Wright提出幾種狀況和於這些狀況如何驗證/使用其項目難度:
1. Assertion of constancy: 前後測分數各自驗證,之後再驗證pre-post joint calibration(前後測的分數放在一起做Rasch/IRT分析)。如果三種狀況的項目難度都差不多(並沒有原本簡單的變難,或是原本難的變簡單),可以其中一種狀況的項目難度為主(anchor)。
2. Assertion of difference: 前後測分數各自驗證後,如果項目難度明顯不同,就要把前後測看成二組項目了(pre-test items/post-test items)。這時資料需要重整,前後測本來是同一個項目的,就要當成不同的項目來處理。
3. Assertion of compromise: 如果很明顯的前後測分數是各自少了分數的二極端(前測少了較高能力的分數,後測少了較低能力的分數),就可以將前後測的分數放在一起calibration,以合併後的項目難度為主。
4. Assertion of meaning: 有時因測驗目的不同,須有不同的calibration方式。如:對於不熟悉「希臘文字」的受測者,學習前每個字對他們而言都很難,但學習之後,有些字變簡單,有些字還是很難,所以後測分數的項目難度是比較重要的,因為可以區別簡單和困難的字。然而,如果一項學科,學習後大家都熟悉/精通了,那麼前測分數的項目難度才是主要區別簡單和困難內容的標準。
沒有留言:
張貼留言