2012年8月14日 星期二

[問題]以多位施測者評估結果計算施測者間信度(已補上我的明確問題)

今天在看暑期研究彙整的文章,發現這篇文章的施測者間信度的研究設計很特殊。
施測者有8人,包括3位職能治療師(評量個案參與OT的情形)與5位物理治療師(評量個案參與PT的情形)。
因此結果可得到2個ICC數值:
一個是3位職能治療師「C3取2」兩兩評估的一致性,
另一個是5位職能治療師「C5取2」兩兩評估的一致性。

我一開始覺得用這麼多施測者評施測者間信度很奇怪,
但是後來想想:如果ICC選擇2-way random,就表示施測者是從「施測者庫」隨機挑選出來的,
所以用多位施測者應該也沒關係。

但是,仔細想想,還是有些地方不懂。
我的問題有3個
1. 如果有3位評分者,就讓所有個案都被這3位評分者評估一次,再計算3位評分者的施測者間信度,結果會不會比較準確或可信?
2. 施測者間評分結果的差異很大,會不會影響ICC的準確性?或只是反映在ICC數值變小而已?
3.計算ICC時,每個施測者被分配到的個案數需要很接近嗎?例如:有人評100人,有人評50人,也可以計算ICC嗎?
麻煩大家提供一些意見喔,謝謝。

以下為論文中說明施測者間信度的資料分析內容:
Interrater reliability was tested by having 2 therapists independently rate a given patient’s therapy session. This was done for 20 OT sessions and 25 PT sessions; a total of 3 occupational therapists and 5 physical therapists participated in this reliability testing. In all cases, each therapist in the pair was masked
to the other’s rating. Intraclass correlation coefficients (ICCs) were calculated for both OT and PT ratings.

13 則留言:

  1. 個人覺得作者或許只是想把這個新發展的量表直接試在臨床上,所以OT/PT的所有的治療師就成了所有的施測者,於是就在這個情況下驗證施測者間信度。
    而平常我們要做某一個量表的信度驗證時,會先思考好研究設計和之後會使用的統計分析,再安排rater,所以比較沒有多位施測者的情況。

    回覆刪除
    回覆
    1. 補充: 如果研究上要用多位施測者作施測者間信度的研究,可能也會考慮是否有足夠經費請人施測,及是否有人力運用過多的問題~

      刪除
    2. 謝謝你的回應。
      關於你的留言,我理解到的意思是:所以就是為了配合臨床的環境,因此有這樣的研究設計。
      不知道是否正確理解你想說明的重點?

      另外,要麻煩你再看一下我列出來的三個問題喔,謝謝。

      刪除
    3. 1. 我想或許不能用"配合臨床的環境"這樣的說法,應該是看自己的研究目的為何。我只是在想:作者是不是想用臨床上治療師之間的inter-rater reliability來驗證他自己發展問卷的信度。
      2. 我想姿誼要不要找時間看看ICC的資料,或者自己用模擬資料以SPSS分析看看,可以看看ICC的公式,用模擬資料的結果來思考一下自己的問題,或許你會收穫很多!

      刪除
  2. 謝謝您的分享。
    想請教2個問題:
    1. 不是很瞭解您所指"如果施測者間的差異很大,ICC數值可能會有問題。"會有什麼問題?
    2. 您寫到"再計算3位評分者的施測者間信度,應該會好一點。"為什麼會好一點?

    另外,我建議是您可以思考看看ICC和ANOVA之間關聯,或者可以想出為何能使用多位施測者評估。再與我們分享,謝謝。

    回覆刪除
    回覆
    1. 謝謝你的回應。
      你的問題也是我的問題@@

      另外,如果要把ICC和ANOVA一起看,就會有我在問題3提到的疑惑:
      每個施測者被分配到的個案數需要很接近嗎?
      不知道你有沒有什麼想法呢?

      刪除
  3. 從文獻中了解: The Pittsburgh Rehabilitation Participation Scale (PRPS)此量表評估方式主要是” relied primarily on observational data and limited need for subjective assessment of the patients’ motivation, requiring no self-reports by the patients.” 所以我想作者主要是想瞭解由不同專業領域的治療師使用此量表其結果的一致性。以證明此量表由不同人使用具有一定的穩定性。

    至於"如果施測者間的差異很大,ICC數值可能會有問題” 此所謂的施測者間差異是指由不同專業的人來評估嗎? 我想如果施測者間的差異很大的話,可能評估結果分數會呈現不太一致,ICC值反而可以反映出這個差異。

    回覆刪除
    回覆
    1. 作者確實在研究假設的地方有說明:他想驗證是否當施測者僅接受少量的量表使用訓練,就可以有不錯的施測者間信度。
      但是我不太能理解這個議題與多位施測者有什麼關連。

      又,謝謝你回答了問題2。
      最後補充一下:我這裡說的施測者間差異是指相同專業領域的施測者評分結果差異過大。

      刪除
  4. 請姿誼彙整目前的討論進展:包含「特定議題」「已解決議題的看法(如何解釋)」「未解決議題,還有那些待澄清」

    回覆刪除
    回覆
    1. 已將內容補充如下,謝謝。

      特定議題:
      (1)兩兩比較的施測者信度比較可信或是三者互相比較的施測者信度比較可信?
      (2)施測者間的差異是否會影響ICC的可信程度?
      (3)每位施測者所分配到的個案數是否需接近?
      已解決議題的看法(如何解釋):施測者間信度可以有多位施測者參與。因為以2-way ANOVA的概念來看,一個因素是個案,另一個因素是施測者。而ANOVA的概念並未限制每個因素應該有幾類,因此施測者人數應該不是問題。
      未解決議題,還有那些待澄清:目前的問題1-3。

      麻煩大家再提供一下意見喔,謝謝。

      刪除
    2. (1)我覺得要看你的研究設計!好像不能說可不可信耶!如果原本的設計是1個人主測,另外2個人在旁測,那麼ICC就是三個rater比較。如果你的研究設計是施測兩次,兩次不同施測者,那就是兩個rater比較。
      (2)ICC原來是用來檢驗rater之間的一致性,基本上,所有的rater在施測前都接受相同的訓練,ICC所分析出來的,應該就代表這些施測者的一致性或差異。
      (3)請問是指施測者間,還是施測者內信度的分析?

      刪除
    3. 謝謝你的回覆。
      關於(3),我想問的是施測者間信度喔!

      刪除
    4. 如果是施測者間信度的分析,我自己會先把問題想成:有2個raters去評估個案。可能的研究設計有:(1) 同時評估一位個案,1個rater主評,另一位rater在旁評估。(2)兩位raters分開評,一位rater先評,另一位rater隔一段時間(如:7天)再評。為了避免有順序之影響,樣本中的個案有一半的個案由rater 1先評,另一半由rater 2先評。在這兩個目前想到的情境下,我想不同rater所評的個案數是相同的。

      刪除