2012年12月27日 星期四

20121227王文中老師IRT與CAT演講記錄


今天王文中老師至系上演講IRTCAT理論與實用。
王老師深入淺出的說明讓聽眾很容易理解,而且覺得IRT是個適用性很高的分析方式。
以下是我(&WILL)的提問與王老師的回答。

問題一、請問下列情境是否適合以IRT驗證題庫的心理計量特性?以下的研究設計是否適合、可行?有沒有那些問題需留意?
      情境:個案數250人、題庫的題數約400題(分為6個向度)
      研究設計:
      將題庫拆成3個小題庫
      1個小題庫約133
      每人每次填寫40題,預計每人填寫2
      每個題目被50位個案填寫
      小題庫間無重疊的題目,但有概念相似的題目
      再將小題庫的測驗結果等化 (equating)
:等化 (equating)的問卷題目的串連方式可分為三類:共同題、共同人、同時使用共同人與共同題。(以下僅介紹前二類)
   
共同題(1)10-20%的題目被所有個案寫過。惟需留意這10-20%的題目都是好題目。(數學理論/模擬上只要一題好題目即可,現實中最好需要10-20%的題目重疊)
           (2)
以螺旋的方式使不同群人填寫到20%相同的題目。例如:A群寫第1-30題、B群寫第20-40題、C群寫第30-50題、D群寫第40-50與第1-20題。
   
共同人(1)部份個案寫完所有的題目。
            (2)A
群寫甲、乙、丙卷,B群寫乙、丙、丁卷,C群寫丁、戊、甲卷。則每個份問卷之間都有共同的作答者。
   

*
注意事項:因為題庫包含6個向度,因此需得到6個向度間的相關才能得到6個向度的相關矩陣。以下有2種作法可以達成這個目的:
(1)
使每個向度都和其它向度都被同時施測,以便計算相關A組寫第12個向度,B組寫第23個向度、C組寫第13個向度……以下類推。
(2)
每個人都填寫個6個向度的一部份題目,而且每個人填寫的題目有部份重疊。(較推薦)


問題二、為何Rasch分析所產生的Person logit measure無法依照Rasch模式所預期個案的能力值校正?
      情境:個案有很嚴重的misfit (難的都對,容易的都不對),但Rasch分析仍依照此個案的最後總分產生Person logit measure
      處理方式:唯一的做法是否只能移除此個案之資料,有其他辦法得到校正後的估計值嗎?
misfit的人其測量標準誤很大,故建議刪除。

問題三、當題庫內容有限,受試者又需多次重複施測,應如何顧及各個題目曝光率的均勻程度,又不損害估計精準度呢?
:有高風險的項目才需控制題目曝光率。控制方法有許多,最常使用的為54321法,就不會使唯一最好的題目曝光率太高。方法如下:
先找出5個與個案能力相近的題目,隨機抽出1題施測。
               
依據作答結果所估計的個案程度
找出4個與能力相近的題目,隨機抽出1題施測。
               
依據作答結果所估計的個案程度
找出3個與能力相近的題目,隨機抽出1題施測
               
依據作答結果所估計的個案程度
找出2個與能力相近的題目,隨機抽出1題施測
                依據作答結果所估計的個案程度
找出最好的1個與能力相近的題目施測

或問:何不用55555的方式選題?答:CAT每次的施測結果皆可縮小對個案能力估計的範圍(意即需要施測的題數越來越少),若每次都從很大的範圍選題,會犧牲估計精準度。

問題四、建置CAT題庫時,應如何擴充題目內容?
      如果以發展類似平行測驗的方式擴充題目是否適當?
      平行測驗之項目是否會違反 local independence?
ETS更新題目的方式為增加新的題目但是不列入計分,利用舊題目估計個案的能力,再以個案能力估計新題目的難度。但新題目必須與舊題目是測量同一概念。

問題五、當個案作答可能會猜測,但個案量又不足以使用3P model時,應如何降低參數(猜測)的影響?
:選擇題不一定就得使用3P model。國際學生能力評量計劃 (the Programme for International Student Assessment, PISA)即是以1P model作羅序分析。相關研究流程可參考PISA的操作手冊。又,若以3P model分析,則原始分數相同不代表能力估計值相同,不易向受試者解釋分數結果。

2 則留言: