主題一、Measurement invariance的判斷指標
Measurement invariance是古典測驗理論的用語,表示量表在不同族群、時間點使用這個量表,皆可以得到相似的心理計量特性。此概念在IRT當中,就是此量表沒有差別試題功能 (differential item functioning, DIF)。
補充:DIF的定義為不同種類(例如:年齡、性別、教育程度)但能力相同的個人,如果在答對某個試題上的機率有所不同的話,則該試題便顯現出 DIF 的現象。
Measurement invariance可謂一種理想,實際上沒有完美的量表。因此就看使用者願意接受多少的不完美。
以下為對於幾個指標的驗證方法的說明:
1.單一因素結構:可視量表的用途決定MNSQ可接受的範圍,例如把範圍從0.6 - 1.4 改為 0.8 - 1.2,以調高標準。
2.題目難度排序:題目難度排序做直接比較。但須思考比較題目難度的排序是否恰當。如果有題目的難度排序變化過大,則可考慮不採計此題的結果,改以共通題的分數估計這題可能的分數。
3.題目難度值:可計算不同時間檢的題目難度之相關,或看各題得分的平均與變化量。
4. Person reliability:可用Spearman-Brown formula計算量表的信度0.89時,要增加幾題才能變成0.92。如果不需增加很多題目,就可視為信度是穩定的。
主題二、若工具不具備Measurement invariance,應如何處理?
驗證Measurement invariance之前,需先說明為何會擔心不一致?為何要驗證特定變項對一致性的影響?不一致又會造成什麼結果。
若量表的使用目的是作為重要的判斷依據(例如疾病診斷或大型考試的錄取判別),則可容忍的誤差程度比較低。
若量表的使用目的是用於團體比較,可允許的誤差較大。
關於是否需刪題,如果題目太少,就不一定要刪題。
主題三、若CFA單因素分析與Rasch分析結果不同,應採信何者?
二者概念不同,不可直接比較。
有時候CFA為單因素,Rasch分析結果不是單因素,並不表示Rasch比較寬鬆。
而是因為我們採用寬鬆的標準看待Rasch分析的結果。
如果改用嚴格的標準,例如:MNSQ改用0.8-1.2的標準,量表未必就會符合單向度。
2015年1月20日 星期二
2015年1月10日 星期六
請教王文中老師的問題(1/13更新)
I.
問題一:若欲驗證評估工具的measurement
invariance,使用哪些指標與驗證方法較為適宜?以下所列的各種判斷指標與驗證方法之優缺點是否恰當?有無其它更好的驗證方法?
指標
|
驗證方法
|
優點
|
缺點
|
因素結構
|
in fit, out fit 的MNSQ <1 .4="" span="">、殘差的PCA的第一因素 < 2判斷是否符合單向度1>
|
判斷標準明確
|
若分析多個時間點,有時後要刪題,有時候不需刪題。因素結構是否一致?
|
題目難度排序
|
直接比較
|
判斷標準明確
|
當題目內容與個案的其它特質(例如:文化)有交互作用時,題目難度排序似乎並不適合作為判斷指標。
|
題目難度值
|
1.看絕對的難度數值
2.計算不同時間點的題目難度之相關
|
數值容易取得
|
1.如何判斷數值的差異多少,是可以接受的?
2.相關係數的判斷標準為何?(
> 0.6即為高相關,但是題目難度的相關程度0.6,似乎不算高)
|
Person reliability
|
直接比較
|
數值容易取得
|
如何判斷數值的差異多少,是可以接受的?
|
補充說明:
1.
measurement invariance (又稱measurement equivalence)是指評估工具應用於不同時間點或族群時,可得到相似的心理計量特性的結果。
2. 用於IRT, measurement invariance的指標包含因素結構、題目難度排序、題目難度的數值、信度。
II.
問題二:若評估工具不具備measurement invariance(例如:題目難度的排序有變化),請問您建議如何進行後續處理(例如:刪題?)、應用時又該留意什麼事情?
III.
問題三、當Rasch分析為單向度,CFA的結果卻不是單向度,應該採信那一個結果呢?請問可能會是甚麼原因造成這個結果?
補充說明
1.
量表特性:一般自我效能量表(General
self-efficacy scale), 共10題。每題皆為4點量尺,無反向題。分數越高表示自我效能越好。
2.
資料特性:受訪者為1176位肢體受傷的住院病人,年齡、教育程度與工作類別差異很大。一般自我效能量表的評量分數偏高。
訂閱:
文章 (Atom)