今天王文中老師至系上演講IRT與CAT理論與實用。
王老師深入淺出的說明讓聽眾很容易理解,而且覺得IRT是個適用性很高的分析方式。
以下是我(&WILL)的提問與王老師的回答。
問題一、請問下列情境是否適合以IRT驗證題庫的心理計量特性?以下的研究設計是否適合、可行?有沒有那些問題需留意?
• 情境:個案數250人、題庫的題數約400題(分為6個向度)
• 研究設計:
• 將題庫拆成3個小題庫
•
1個小題庫約133題
•
每人每次填寫40題,預計每人填寫2次
•
每個題目被50位個案填寫
•
小題庫間無重疊的題目,但有概念相似的題目
• 再將小題庫的測驗結果等化 (equating)
答:等化 (equating)的問卷題目的串連方式可分為三類:共同題、共同人、同時使用共同人與共同題。(以下僅介紹前二類)
共同題:(1)讓10-20%的題目被所有個案寫過。惟需留意這10-20%的題目都是好題目。(數學理論/模擬上只要一題好題目即可,現實中最好需要10-20%的題目重疊)
(2)以螺旋的方式使不同群人填寫到20%相同的題目。例如:A群寫第1-30題、B群寫第20-40題、C群寫第30-50題、D群寫第40-50與第1-20題。
共同人:(1)部份個案寫完所有的題目。
(2)A群寫甲、乙、丙卷,B群寫乙、丙、丁卷,C群寫丁、戊、甲卷。則每個份問卷之間都有共同的作答者。
*注意事項:因為題庫包含6個向度,因此需得到6個向度間的相關才能得到6個向度的相關矩陣。以下有2種作法可以達成這個目的:
(1)使每個向度都和其它向度都被同時施測,以便計算相關:A組寫第1、2個向度,B組寫第2、3個向度、C組寫第1、3個向度……以下類推。
(2)每個人都填寫個6個向度的一部份題目,而且每個人填寫的題目有部份重疊。(較推薦)
共同題:(1)讓10-20%的題目被所有個案寫過。惟需留意這10-20%的題目都是好題目。(數學理論/模擬上只要一題好題目即可,現實中最好需要10-20%的題目重疊)
(2)以螺旋的方式使不同群人填寫到20%相同的題目。例如:A群寫第1-30題、B群寫第20-40題、C群寫第30-50題、D群寫第40-50與第1-20題。
共同人:(1)部份個案寫完所有的題目。
(2)A群寫甲、乙、丙卷,B群寫乙、丙、丁卷,C群寫丁、戊、甲卷。則每個份問卷之間都有共同的作答者。
*注意事項:因為題庫包含6個向度,因此需得到6個向度間的相關才能得到6個向度的相關矩陣。以下有2種作法可以達成這個目的:
(1)使每個向度都和其它向度都被同時施測,以便計算相關:A組寫第1、2個向度,B組寫第2、3個向度、C組寫第1、3個向度……以下類推。
(2)每個人都填寫個6個向度的一部份題目,而且每個人填寫的題目有部份重疊。(較推薦)
問題二、為何Rasch分析所產生的Person
logit measure無法依照Rasch模式所預期個案的能力值校正?
• 情境:個案有很嚴重的misfit (難的都對,容易的都不對),但Rasch分析仍依照此個案的最後總分產生Person logit measure。
• 處理方式:唯一的做法是否只能移除此個案之資料,有其他辦法得到校正後的估計值嗎?
答:misfit的人其測量標準誤很大,故建議刪除。
問題三、當題庫內容有限,受試者又需多次重複施測,應如何顧及各個題目曝光率的均勻程度,又不損害估計精準度呢?
答:有高風險的項目才需控制題目曝光率。控制方法有許多,最常使用的為54321法,就不會使唯一最好的題目曝光率太高。方法如下:
先找出5個與個案能力相近的題目,隨機抽出1題施測。
↓依據作答結果所估計的個案程度
找出4個與能力相近的題目,隨機抽出1題施測。
↓依據作答結果所估計的個案程度
找出3個與能力相近的題目,隨機抽出1題施測
↓依據作答結果所估計的個案程度
找出2個與能力相近的題目,隨機抽出1題施測
先找出5個與個案能力相近的題目,隨機抽出1題施測。
↓依據作答結果所估計的個案程度
找出4個與能力相近的題目,隨機抽出1題施測。
↓依據作答結果所估計的個案程度
找出3個與能力相近的題目,隨機抽出1題施測
↓依據作答結果所估計的個案程度
找出2個與能力相近的題目,隨機抽出1題施測
↓依據作答結果所估計的個案程度
找出最好的1個與能力相近的題目施測
或問:何不用55555的方式選題?答:CAT每次的施測結果皆可縮小對個案能力估計的範圍(意即需要施測的題數越來越少),若每次都從很大的範圍選題,會犧牲估計精準度。
找出最好的1個與能力相近的題目施測
或問:何不用55555的方式選題?答:CAT每次的施測結果皆可縮小對個案能力估計的範圍(意即需要施測的題數越來越少),若每次都從很大的範圍選題,會犧牲估計精準度。
問題四、建置CAT題庫時,應如何擴充題目內容?
• 如果以發展類似平行測驗的方式擴充題目是否適當?
• 平行測驗之項目是否會違反 local independence?
答:ETS更新題目的方式為增加新的題目但是不列入計分,利用舊題目估計個案的能力,再以個案能力估計新題目的難度。但新題目必須與舊題目是測量同一概念。
問題五、當個案作答可能會猜測,但個案量又不足以使用3P model時,應如何降低參數(猜測)的影響?
答:選擇題不一定就得使用3P model。國際學生能力評量計劃 (the Programme for International Student Assessment, PISA)即是以1P model作羅序分析。相關研究流程可參考PISA的操作手冊。又,若以3P model分析,則原始分數相同不代表能力估計值相同,不易向受試者解釋分數結果。
答:選擇題不一定就得使用3P model。國際學生能力評量計劃 (the Programme for International Student Assessment, PISA)即是以1P model作羅序分析。相關研究流程可參考PISA的操作手冊。又,若以3P model分析,則原始分數相同不代表能力估計值相同,不易向受試者解釋分數結果。
感謝for the 問題二...
回覆刪除不客氣 :D
刪除