從研究到教學：五隻魚的部落格: 20121227王文中老師IRT與CAT演講記錄

2012年12月27日星期四

20121227王文中老師IRT與CAT演講記錄

今天王文中老師至系上演講IRT與CAT理論與實用。

王老師深入淺出的說明讓聽眾很容易理解，而且覺得IRT是個適用性很高的分析方式。

以下是我（&WILL）的提問與王老師的回答。

問題一、請問下列情境是否適合以IRT驗證題庫的心理計量特性？以下的研究設計是否適合、可行？有沒有那些問題需留意？

• 情境：個案數250人、題庫的題數約400題（分為6個向度）

• 研究設計：

• 將題庫拆成3個小題庫

• 1個小題庫約133題

• 每人每次填寫40題，預計每人填寫2次

• 每個題目被50位個案填寫

• 小題庫間無重疊的題目，但有概念相似的題目

• 再將小題庫的測驗結果等化 (equating)

答：等化 (equating)的問卷題目的串連方式可分為三類：共同題、共同人、同時使用共同人與共同題。（以下僅介紹前二類）
    共同題：(1)讓10-20%的題目被所有個案寫過。惟需留意這10-20%的題目都是好題目。（數學理論/模擬上只要一題好題目即可，現實中最好需要10-20%的題目重疊）
           (2)以螺旋的方式使不同群人填寫到20%相同的題目。例如：A群寫第1-30題、B群寫第20-40題、C群寫第30-50題、D群寫第40-50與第1-20題。
    共同人：(1)部份個案寫完所有的題目。
            (2)A群寫甲、乙、丙卷，B群寫乙、丙、丁卷，C群寫丁、戊、甲卷。則每個份問卷之間都有共同的作答者。

*注意事項：因為題庫包含6個向度，因此需得到6個向度間的相關才能得到6個向度的相關矩陣。以下有2種作法可以達成這個目的：
(1)使每個向度都和其它向度都被同時施測，以便計算相關：A組寫第1、2個向度，B組寫第2、3個向度、C組寫第1、3個向度……以下類推。
(2)每個人都填寫個6個向度的一部份題目，而且每個人填寫的題目有部份重疊。（較推薦）

問題二、為何Rasch分析所產生的Person logit measure無法依照Rasch模式所預期個案的能力值校正?

• 情境：個案有很嚴重的misfit （難的都對,容易的都不對），但Rasch分析仍依照此個案的最後總分產生Person logit measure。

• 處理方式：唯一的做法是否只能移除此個案之資料，有其他辦法得到校正後的估計值嗎?

答：misfit的人其測量標準誤很大，故建議刪除。

問題三、當題庫內容有限，受試者又需多次重複施測，應如何顧及各個題目曝光率的均勻程度，又不損害估計精準度呢？

答：有高風險的項目才需控制題目曝光率。控制方法有許多，最常使用的為54321法，就不會使唯一最好的題目曝光率太高。方法如下：
先找出5個與個案能力相近的題目，隨機抽出1題施測。
                ↓依據作答結果所估計的個案程度
找出4個與能力相近的題目，隨機抽出1題施測。
                ↓依據作答結果所估計的個案程度
找出3個與能力相近的題目，隨機抽出1題施測
                ↓依據作答結果所估計的個案程度
找出2個與能力相近的題目，隨機抽出1題施測

↓依據作答結果所估計的個案程度
找出最好的1個與能力相近的題目施測

或問：何不用55555的方式選題？答：CAT每次的施測結果皆可縮小對個案能力估計的範圍（意即需要施測的題數越來越少），若每次都從很大的範圍選題，會犧牲估計精準度。

問題四、建置CAT題庫時，應如何擴充題目內容？

• 如果以發展類似平行測驗的方式擴充題目是否適當？

• 平行測驗之項目是否會違反 local independence?

答：ETS更新題目的方式為增加新的題目但是不列入計分，利用舊題目估計個案的能力，再以個案能力估計新題目的難度。但新題目必須與舊題目是測量同一概念。

問題五、當個案作答可能會猜測，但個案量又不足以使用3P model時，應如何降低參數（猜測）的影響？
答：選擇題不一定就得使用3P model。國際學生能力評量計劃 (the Programme for International Student Assessment, PISA)即是以1P model作羅序分析。相關研究流程可參考PISA的操作手冊。又，若以3P model分析，則原始分數相同不代表能力估計值相同，不易向受試者解釋分數結果。

2 則留言:

WILL2013年1月4日下午2:27
感謝for the 問題二...
回覆刪除
回覆

2012年12月27日 星期四

20121227王文中老師IRT與CAT演講記錄

2 則留言:

2012年12月27日星期四