平板電腦版注意力測驗的發展: Comparisons require stability

ADL CAT論文的審查意見中，
有一個意見是："I personally find that before assessing test-retest reliability and especially responsiveness in a CAT environment, it is absolutely mandatory to test the whole item bank for time-DIF to see whether the construct itself stays stable over time or whether single items change their difficulties. Especially in a CAT environment, where single items have a higher impact on parameter estimation it should be assured that item parameters are time invariant."

由於我們沒有個案於整個ADL item bank的資料，

所以無法分析項目難度或建構本身是否有time-DIF（不同時間點所獲得的項目難度是否一致，或單向度是否一直能維持）。

最近在一篇paper：Wright B. D. (1996) Comparisons require stability. Rasch Measurement Transactions 10:2 p. 506. 讀到相關的概念。
Wright提的comparisons跟responsiveness(measuring change)比較有關。
他認為經過一段時間，可能會因rater不同、個案能力/特質產生變化，或是個案因曾經做過測驗而較熟悉測驗，因此導致前測和後測的項目難度有些不同。
一般來說，我們會希望很純粹的測量到個案的能力/特質變化。但如果測量個案能力/特質的工具標準(item parameters)有所變化，所測到的變化量就不可靠，因為量尺本身並不穩定。

Wright提出幾種狀況和於這些狀況如何驗證/使用其項目難度：
1. Assertion of constancy: 前後測分數各自驗證，之後再驗證pre-post joint calibration(前後測的分數放在一起做Rasch/IRT分析)。如果三種狀況的項目難度都差不多(並沒有原本簡單的變難，或是原本難的變簡單)，可以其中一種狀況的項目難度為主(anchor)。

2. Assertion of difference: 前後測分數各自驗證後，如果項目難度明顯不同，就要把前後測看成二組項目了(pre-test items/post-test items)。這時資料需要重整，前後測本來是同一個項目的，就要當成不同的項目來處理。

3. Assertion of compromise: 如果很明顯的前後測分數是各自少了分數的二極端（前測少了較高能力的分數，後測少了較低能力的分數），就可以將前後測的分數放在一起calibration，以合併後的項目難度為主。

4. Assertion of meaning: 有時因測驗目的不同，須有不同的calibration方式。如：對於不熟悉「希臘文字」的受測者，學習前每個字對他們而言都很難，但學習之後，有些字變簡單，有些字還是很難，所以後測分數的項目難度是比較重要的，因為可以區別簡單和困難的字。然而，如果一項學科，學習後大家都熟悉/精通了，那麼前測分數的項目難度才是主要區別簡單和困難內容的標準。

平板電腦版注意力測驗的發展

2013年12月20日星期五

Comparisons require stability

沒有留言:

張貼留言

2013年12月20日 星期五

Comparisons require stability

沒有留言:

張貼留言

2013年12月20日星期五