在醫學研究上,針對感興趣的結果變項(outcome)去找出影響因子常會使用到線性迴歸模式(linear regression model), 邏輯斯迴歸模式(logistic regression model)等方法,而其目的除了要找出顯著的影響因子外,有時還須評估模式的預測能力。例如:研究者欲找出影響代謝症候群的因素,所以建立一邏輯斯迴歸模式,而模式一旦建立後,如有一新個案的資料,代入影響因子的值,即可預測其有代謝症候群的可能性有多高。而交叉驗證(Cross-Validation)可以用來檢視模式預測能力的好壞。


常見的交叉驗證方法有二折交叉驗證(2-fold cross-validation),十折交叉驗證(10-fold cross-validation),而以十折交叉驗證較常被運用。其想法即爲將原始的資料先分割成十等份,取其中九等份(training data)來進行建模分析(model building),而留下的一等份則爲驗證資料(validation data);也就是說,用來驗證模式預測的精確度。以邏輯斯迴歸來說,即是進行十次的建模,以及驗證過程,再將十次結果的精準度(accuracy)取平均,最後再呈現平均的精準度。一般而言,在分析軟體方面,R提供了k-fold cross validation的套件,可以直接套用進行分析。

Reference:
Kohavi, Ron (1995). "A study of cross-validation and bootstrap for accuracy estimation and model selection". Proceedings of the Fourteenth International Joint Conference on Artificial Intelligence 2 (12): 1137–1143.

arrow
arrow

    estat 發表在 痞客邦 留言(0) 人氣()