在生物醫學的研究中,常需對感興趣的兩個變數來檢驗是否具有相關性,以及如具有相關性,其相關的方向爲正向或是反向相關?例如:體脂肪與血壓,體重與血糖值高低之間的關聯性。而最常被應用來呈現相關性的指標即爲pearson 相關或spearman相關,然而這兩個指標在應用的情形上有所不同。

一般而言,Pearson 相關常用來呈現連續型(continous)變數之間的關聯性,尤其在變數符合常態分配的假設下,最爲精確;而spearman相關則不需符合常態,僅要求變數的資料型態至少爲有序的(ordinal)。另一個選擇上的重點爲在資料具有離群值時(outliers),以spearman相關來呈現會是較佳的選擇,因爲其不受離群值的影響(這是因爲spearman相關是以排序值(rank)來計算相關係數!)

更深入的來看,pearson相關所衡量的是線性相關(linear),也就是說,主要偵測的是兩變數之間是否有線性相關。所以,當兩變數之間具有相關,但爲非線性時pearson就不是最佳的方法。在這種情形下,spearman更爲合適,例如以下以學生的國文和數學成績之間的相關資料:

pearson correlation data  

其資料的散佈狀態見下圖,

pearson correlation  

經分別計算相關係數後,可得pearson correlation=0.8829, spearman=1。事實上由上圖可看出,資料點間之相關並非線性,所以兩種相關係數值計算結果有很大的不同!所以,spearman相關除了不須常態假設外,在具離群值,或是兩變數間之相關爲非線性時都是適合的使用時機。

Reference
Lehman, Ann (2005). Jmp For Basic Univariate And Multivariate Statistics: A Step-by-step Guide. Cary, NC: SAS Press. p. 123.

arrow
arrow

    estat 發表在 痞客邦 留言(4) 人氣()