橫軸為測量分數,縱軸為機率密度。
黑色實線表示黃金標準在第一次施測的分數分布,
紅色實線表示某一(信效度不佳的)測驗在第一次施測的分數分布。
黑色虛線表示黃金標準在第二次施測的分數分布,
紅色虛線表示某一(信效度不佳的)測驗在第二次施測的分數分布。
此圖說明5個概念:
(1)信度:
此處以某一個測驗與黃金標準度對照,
信度較差的測驗的隨機誤差較大。
(2)效度:
此處以某一個測驗的平均分數偏離黃金標準的平均分數表示。
效度越差的測驗的平均分數與黃金標準的平均分數差距越大,表示此測驗與黃金標準的測量分數不是來自同一個分配。
(3)反應性
反應性表示在個案能力有改變的情況下,評估工具可呈現分數變化的敏感程度。
反應性越好的工具,越能區辨前後測的分數差異。
以黃金標準為例,二次測量的分數分布並未重疊,因此評分者較能判斷分數有顯著差異。
以某一測驗為例,二次測驗的分數分布有部分重疊,因此即使分數有改變,仍可能落在前測的分數分布中,而難以呈現個案的分數有顯著差異(變化)。
(4)信度與效度的關係
信度不佳的測驗的隨機誤差較大,而較大的誤差 (systematic bias)可能使測量概念偏離黃金標準涵蓋的概念。
(5)信效度與反應性關係
若測驗信度不佳,則測驗分數的變異較大(二次測驗的分數分布重疊較多),難以判斷分數的改變是實際能力的改變或誤差,因此反應性不佳。
若測驗效度不佳,則測驗分數的變化未能反應所欲評估之能力/特質之變化,因此反應性不佳。
此圖的限制:未能呈現效度極差的工具之再測結果。
若測驗的效度極差,可能再測之分數不會有明顯改變。
但因本圖以某一測驗和黃金標準的平均分數對照,
若某一測驗的再測分數變化極少,則會使得某一測驗和黃金標準的再測平均過於接近,易使讀者誤以為systematic bias變小,故以目前的圖片呈現。
為補充對反應性的說明,我新增了一個比較反應性優劣的圖(圖二)。
圖二、比較不同反應性的工具之示意圖
在這個圖中,橫軸為二次施測的分數差異,縱軸為機率。
我以某一測驗的二次施測的分數差異分配、黃金標準的二次施測的分數差異分配和二次施測的分數差異為零的分配(假設個案分數沒有變化的分配)做比較。
若某一測驗的反應性不佳,則有越大面積與二次施測的分數差異為零的分配重疊,其α越大,表示越難判斷施測分數是否有變化。
而黃金標準的二次施測的分數差異分配因為與二次施測的分數差異為零的分配幾乎沒有重疊,α極小,表示很容易判斷施測分數之變化。
參考網頁(老師提供)
•http://www.astarmathsandphysics.com/ib_physics_notes/measurement_%20units_uncertainty_and_principles/ib_physics_notes_random_and_systematic_error_html_m5d7d3b69.gif
looks good!
回覆刪除只是我未見「反應性」之內容
謝謝老師的建議。
刪除我已經補上反應性的說明了!
目前反應性的說明:未提到跟信度與效度之關係
回覆刪除圖亦未呈現反應性
感謝老師的建議。
刪除我已調整(5)信效度與反應性之關係的說明。
另外,原本的(3)即是說明反應性。
為增加對反應性的說明,我新增了一張圖示解釋反應性優劣的意義。
請您再看看囉!
我原本所提如下:
刪除「具備反應性的前提是:良好的效度(單向度 & 區辨力)與信度(隨機測量誤差)。
1. 具備區辨力(無 floor & ceiling effects),可區辨不同(欲測量特質)能力者之差異
2. 上述的概念類似於評估工具對於不同能力者之測量標準誤(standard error of measurement)低
3. 評估之工具項目具備單向度」
請依據上述,個別指出您的圖示符合之處(也就是自我評論)。