聽完第二梯次的迴歸分析報告,發現大學生有一點點為了作報告而作分析的傾向,
卻不管資料特質是否適合進行迴歸分析。
例一、以過去收案的資料,作了一個15人、8個X的模型,然後宣稱解釋量很高。
例二、探討青少年偏差行為的預測因子:偏差行為量表為學生自填,老師收集。結果發現多數人聚集於無偏差行為,只有0.8%的受測者有明顯偏差行為。然而少數的「界外值」可能也反映了青少年的真實情況,不宜刪除。
→個人認為學生的偏差行為本來就不是常態,自填偏差行為量表,很難確保受測者是否誠實作答、以及誠實作答會不會有不良影響、也很難由兩極的填答結果判斷有沒有人亂填。因此,這個報告的三個主要挑戰為:
1.若欲研究偏差行為,是否應找保護管束或教養機構的青少年作研究?
2.此類社會期許很明顯的問卷的測量結果可能不太可信
3.此資料的型態不太適合一般線性迴歸
對於這兩週的報告,老師的評語是:這學期教了很多東西,但是大家都只用了少部分。
因此,可以再想想有沒有哪些分析也應該納入。
又,既然花時間寫了報告,應該嘗試投稿,既可累積經歷,也不浪費時間。
聽完報告,除了上述的感想以外,又冒出新的問題了!
為了怕忘記,先把問題記錄下來:
1.變異數不同質,對迴歸式的影響為何?是影響迴歸係數或迴歸模型?
2.當X是類別變項或次序變項,使用dummy coding,再以stepwise選擇X,只剩下其中一個程度的X,應該如何解釋迴歸式?例如:把居住地區放入迴歸式,結果發現只有中部地區有顯著,結果應該解釋為:居住在中部地區為XXX的重要影響因子嗎?
3.交叉驗證的使用條件為何?
4.如何判斷我們建立的迴歸模型是好的?是不是處理過常態、變異數同質、界外值、加權變異數較大的觀察值、有可接受的變異量(例如>0.6),就可以確定?
5.如何選擇交互作用項?因為有時候找不到理論根據,也無法直接從資料裡看出來。或者,應該把所有的X都做成有交互作用,讓電腦軟體自己去選呢?
上述問題的答案會再補上
沒有留言:
張貼留言