交叉驗證(Cross-Validation)在醫學研究上的應用 @ 以斯帖統計顧問公司

在醫學研究上，針對感興趣的結果變項(outcome)去找出影響因子常會使用到線性迴歸模式(linear regression model), 邏輯斯迴歸模式(logistic regression model)等方法，而其目的除了要找出顯著的影響因子外，有時還須評估模式的預測能力。例如：研究者欲找出影響代謝症候群的因素，所以建立一邏輯斯迴歸模式，而模式一旦建立後，如有一新個案的資料，代入影響因子的值，即可預測其有代謝症候群的可能性有多高。而交叉驗證(Cross-Validation)可以用來檢視模式預測能力的好壞。

常見的交叉驗證方法有二折交叉驗證(2-fold cross-validation)，十折交叉驗證(10-fold cross-validation)，而以十折交叉驗證較常被運用。其想法即爲將原始的資料先分割成十等份，取其中九等份(training data)來進行建模分析(model building)，而留下的一等份則爲驗證資料(validation data)；也就是說，用來驗證模式預測的精確度。以邏輯斯迴歸來說，即是進行十次的建模，以及驗證過程，再將十次結果的精準度(accuracy)取平均，最後再呈現平均的精準度。一般而言，在分析軟體方面，R提供了k-fold cross validation的套件，可以直接套用進行分析。

Reference:
Kohavi, Ron (1995). "A study of cross-validation and bootstrap for accuracy estimation and model selection". Proceedings of the Fourteenth International Joint Conference on Artificial Intelligence 2 (12): 1137–1143.