目前分類:統計分析方法簡介 (32)

瀏覽方式: 標題列表 簡短摘要

 

    在臨床實驗或介入型研究,經常需要對同一個受試個體(Subject)在不同的時間點觀察其反應,當觀察的時間點只有兩個時,可以用來分析的統計方法為paired t-test;如果觀察的個體數目太少,則會建議使用相依樣本的無母數檢定方法,如:Wilcoxon signed-rank test,若反應變項為類別型資料,且資料為相依樣本的情況下,其統計檢定方法為McNemar Test

 

如果觀察的時間點有兩個以上時,上述的方法則不再適用,此時,就必須使用到一些重覆測量的方法,如:

 

  1. 1.    Hotelling T2:反應變項為連續型資料,且符合常態分配假設之下,可分析單一樣本或兩樣本的重覆測量,是T teat的延伸。

 

  1. 2.    Friedmans test反應變項為連續型資料,且為小樣本的情況下使用,為單一樣本重覆測量。由於是無母數檢定方法,原始值必需先轉為rank型態。

 

  1. 3.    Cochran’s Q test:反應變項為類別型資料(二元型態,binomial)的情況下可使用,為單一樣本重覆測量,且無母數檢定方法。基本假設為不同時間點,感興趣的事件發生的機率相等。

 

  1. 4.    重覆測量型變異數分析(Repeated Measures ANOVA)

        其中兩個重要的基本假設為(1):不同個體(subject)之間無關聯性、(2)同一個個體(subject)在不同時間(visit)的測量有相關。在共變異數矩陣(Covariance matrix)的分析中有一個基本的假設,同一個個體(subject)在不同時間(visit)的測量之相關都一樣。事實上,距離愈前期的測量結果愈遠,測量的相關會愈來愈弱,與臨床上許多的實際狀況不符,這樣的相關矩陣稱為Compound Symmetry(CS)。檢定這項基本假設的方法為Mauchly’s test of Sphericity(球面性假設),若不符基本假設,應採取更適合的方法。

        Repeated Measures ANOVA可分析單一樣本與多組樣本的重覆測量,反應變項為連續型資料,且需符合常態分配的基本假設。資料為橫向資料,若有任一次的資料中有缺失值,將整個subject被刪除,因此分析的資料特性必須是完整資料(Complete case)。對於會隨時間改變的解釋變數(例如每次所測量的除反應變項以外之生化值),無法一一對應至每一個時間點的反應變數,因此僅能分析不隨時間改變的解釋變數(例如性別)

文章標籤

estat 發表在 痞客邦 留言(2) 人氣()

 

傳統的存活分析方法大多用於估計單一次事件(例如:死亡,得病等)的存活率,但是在臨床研究上,有些存活資料屬於復發事件(recurrent event);例如,同一個體(subject)在追蹤時間(follow-up time)內發生多次某種症狀。以傳統的存活分析的觀點,可以僅看第一次復發事件的存活分析,但缺點是忽略了其他復發事件發生的訊息。所以,當資料型態是這種情形下,採用多次復發存活分析方法是較爲合適的。
 
一般的存活分析方法僅能用於資料之間爲獨立的情形下,然而,在臨床研究上,常收集到的資料是具有相關性的;例如,同一個體(subject)中的眼睛、腎臟等兩個以上的器官所收集到的存活資料。此外,同一家庭內的兩個不同個體的存活資料,亦可視爲此種資料型態。此種資料因爲具有配對的特性,所以在分析上較爲複雜,所採用的方法為配對存活分析(Matched Survival)
 
在醫學研究中最常見的資料型態為右設限(right censored)資料,此類個案僅能記錄到從進入研究到研究截止的時間,在研究時間中止前,某些個案尚未發生感興趣的事件,所記錄的時間非真正發生事件的時間,造成資料不完整的情形。另一種常見的不完整情形爲左截切(left truncation)資料,左截切分析中,究者感興趣的是個案的存活年齡,例如65歲以後入住於老人安養院後能存活到幾歲。如果個案在研究開始前即死亡,則完全無法被觀察到,有別於右設限,左截切僅能觀察到部份的個案資料。在這種情形下,典型的Kaplan-Meier estimate是無法使用的。
 
另外。在醫學研究的實務應用中,可能存在有二種以上的不同事件,而感興趣的事件為其中一種。在這種情形下,出現某種事件可能會掩蓋了其它事件發生的可能性,此即為競爭風險(Competing Risks)。例如,針對白血病骨髓移植病患的研究,可能發生的事件有二種。白血病復發(relapse)以及移植失敗所造成的死亡(death)。如果我們要探討的是骨髓移植的復發率,移植失敗所造成的死亡(death)即為復發(relapse)的競爭風險事件(competing risk event)。所採用的方法為以累積發生函數(cumulative incidence function; CIF)來呈現特定事件在不同時間點發生的可能性。

 

相片2  

文章標籤

estat 發表在 痞客邦 留言(0) 人氣()

 

    當解釋變項間存在共線性問題,但又無法直接以剔除變項的方式進行多元回歸分析,此時可採用主成份回歸分析來減輕解釋變數間的多重共線性。以下以工作倦怠感預測生活滿意度為例,解釋變數包含年齡、性別及工作倦怠感量表上的20個測量題,如下的資料結構所示,但有幾組題目間存在著相當高的相關性,若同時放入回歸模式中會因共線性的關係影響模式的估計,如下表的相關係數表所示,第1-8題的相關性很高,第10-15題的相關性很高,同時第20-22題與第16-18題之間的相關性很高。因此可考慮將量表以主成份分析萃取出幾個成份(component),使相關性很高的題目組成一個成份,而每一個成份間的相關性是最低的,並將每一個成份重新命名,且計算每一成份新的分數(score),再進行多元邏輯斯回歸,如此即可解決多重共線性的問題,此法即主成份回歸分析法。在因素分析時,要用正交(或直交)轉軸法找出特定的成份,並為各成份命名,但命名的合理性是很容易受到爭議的。

 

主成份回歸1  

資料檔改編自「吳明隆SPSS統計應用學習實務:問卷分析與應用統計」

 

20題測驗題間的相關係數表(只取部份表格內容)

主成份回歸2  

 

    以下步驟已將工作倦怠感量表萃取出4個因素,並產生4個因素分數,在資料檔中,新的變數名為FAC1_1FAC2_1FAC3_1FAC4_1,我們重新將變數的標籤(Label)依序改為:工作挫折感、工作價值與目標低落、工作興趣感低落、人際關係冷漠,如下所示,再進行多元迴歸的程序。

estat 發表在 痞客邦 留言(0) 人氣()

 

通常我們收回集的資料乍看之下是很混亂,且讓人頭疼的。因此我們需要能從中找出資料的特性。由以下的舞蹈可以看到如何從混亂中衍生出規則,請注意!一開始,舞者的位置是雜亂的,動作有快亦有慢。之後,我們可以看到舞者頋依據他們的速度重新排列位置,跳得慢的站在左邊,快的在右邊,其餘的在中間。他們產生了次數分佈,水平方向呈現的是速度,垂直方向呈現不同速度的個數,這樣的分佈近似常態分佈(normal distribution)或稱高斯分佈(Gaussian distribution)。特別要留意的是,很少的舞者站在特別快或特別慢的位置,大部份的舞者屬於中等速度且站在中間,這樣的資料分佈特徵為鐘形曲線(bell-shaped curve)

 

將資料視覺化可以幫助我們從混亂中看出規則,透過次數分配的呈現,可以看到每個數值出現的頻率,以及看出資料分配的特性。而常態分配只是各種次數分配的一種,且大部份的數值集中在中間,極端值在兩側。
 
以下的影片由英國心理學會(British Psychological Society; BPS) 募集資金製作的,希望透過舞蹈的趣味讓更多心理學系學生對統計觀念有更深刻的印象。

  


estat 發表在 痞客邦 留言(0) 人氣()

 

為了計算不同族群間、或不同時期的率差或率比,必需以標準人口結構調整死亡率才能進一步比較,否則因不同族群、或不同時期的人口結構不同,則會影響比較結果。標準人口通常是一組大而人口結構穩定的族群,例如全國人口,若要進行國際間的比較,將以2000年世界標準人口進行標準化(不分性別、每5歲一個年齡組距)

 

標準化率    

 

直接標準化率之95%信賴區間:

標準化率2   

i:年齡別

SR:標準化率 

CRi:粗率 

estat 發表在 痞客邦 留言(0) 人氣()

 

之前曾介紹分層抽樣法在SAS程式中的應用(分層等比例抽樣法 分層不等比例抽樣法 ),此單元將對分層抽樣法作更深入的介紹。

 

分層抽樣(stratified sampling)屬於隨機抽樣法(Radom sampling)中的一種,其方法為將抽樣母體分成性質不同或互斥的若干組,每一組為一個『層』(strata),同層的性質要儘量相近,即變異要愈小愈好;不同層間的變異要愈大愈好,但分層組數不宜太多,可在6組以內(Cochran 1963)。選擇分層的變數通常與研究的主題有直接的關聯,例如依BMI(身體質量指數)的大小將肥胖程度分為過瘦(18以下)、標準(18-23.9)、輕微過重(24-26.9)以及過重(27以上)等。其他常用的變項如性別、年齡、社經地位、都市化程度等。

 

再從各層中隨機抽取樣本,此法可依適用情形再分為等比例抽樣以及不等比例抽樣。等比例抽樣(或稱分層固定比例)中,適用當各層樣本數與該層總體數的比值相等,而採取固定的比例抽樣。例如,樣本大小n=50,總體N=500,則n/N=0.1 即為樣本比例,每層均按這個比例確定該層樣本數,可避免各層抽過多或過少,並減少抽樣誤差,最常用的方法是「比例配置法」(Proportional allocation。不等比例抽樣的適用情形為層內變異較大,則抽樣個數較多,反之則抽較少,常用方法為「尼曼配置法」(Neyman allocation各層樣本數與該層總體數的比值並不固定

 

採用分層抽樣法可避免出現簡單隨機抽樣中的集中於某些特性或遺漏掉某些特性的缺點,而其優點為可靠性高且利於比較。

 

要如何來決定每一層內抽出的樣本數呢?以下為各層樣本數的估計方法

文章標籤

estat 發表在 痞客邦 留言(0) 人氣()

 

當我們想瞭解一個大群體(或稱母群體;a population)的資料特性,但礙於人力、經費與時間等現實因素,我們無法收集到母群體完整的資訊,於是會藉由抽取一部份的樣本以代表母群體,並利用抽樣結果描述母群體,而每次的抽樣結果與母裙體間的偏差即為標準誤(Standard Error)它與標準差(Standard Deviation; SD)雖然只有一字之差,但意義完全不同。標準差為每個樣本與樣本平均值的偏差(Deviation),用來描述一組樣本的分散情形。

 

以下的影片由英國心理學會(British Psychological Society; BPS) 募集資金製作的,希望透過舞蹈的趣味讓更多心理學系學生對統計觀念有更深刻的印象。

 

 

 影片中穿藍衣的舞者代表母群體,他有自己的資料分佈特性,以藍色長方形表示他的資料形態(shape),之後的每一個舞者代表每次的抽樣結果與資料分怖形態,不同次的抽樣結果亦有不同的資料形態以推估母群體。請大家注意每個樣本分佈的形態並與藍色的母群體做比較。

 

一個好的樣本估計會與母群體的資料形態很接近,然而,每一次的抽樣結果可能有不一樣的資料形態,此即我們所知的抽樣變異(sampling variation),不同的抽樣結果產生不同的的母群體估計值。

文章標籤

estat 發表在 痞客邦 留言(1) 人氣()

 

在許多臨床試驗中,由於針對某些疾病個案的收集不易(或是phase II trial ,僅收集較少的個案),所以造成後續可用來進行統計分析的樣本數不大,此時常見的分析方法爲無母數方法(non-parametric method)。針對數值型的反應變項(response),如欲比較實驗組和控制組間,反應值是否有差異Mann-Whitney U test爲最常用的分析方法。然而,當反應值的分佈狀況並非聚集於中央而是群集於兩端時,Mann-Whitney U並無法適切地呈現比較的結果。例如治療焦慮(anxiety)的用藥,對某些人來說有可能降低焦慮的症狀,但對某些人來反而會更加嚴重,此時焦慮反應程度便是分佈於兩端。

上述的例子中,使用Moses 極端反應檢定方法是更爲恰當的選擇;也就是說,比較的是兩組資料的散佈狀態(dispersion)是否相似。不同於Mann-Whitney U test, Moses 極端反應檢定的虚無假設爲H0: 兩組的極端值是相近的。所以,當研究者有合理的證據(文獻佐證)認爲反應值的資料並非集中於中央,而是偏斜(skewed)或群集於兩端時,Moses 極端反應檢定方法更加適當。在統計軟體的運用方面,SPSS中無母數檢定模組中即有此檢定方法;另外,SAS以及R也可以進行Moses 極端反應檢定,此檢定方法幾乎可見於大部份的統計軟體。

Reference:
Moses, L. W., "Non-Parametric Statistics for Psychological Research," Psychol. Bull., 1952, 49, 122-143.


文章標籤

estat 發表在 痞客邦 留言(0) 人氣()

 

在許多醫學研究中,所收集到反應變數的資料爲有序型態(ordinal data);例如評估某種疾病嚴重度, 0, 1, 2, 3, 4此即爲典型的有序資料----也就是說,數字本身除了區分嚴重度的不同類別外,數字的大小還具有程度上的差異。針對此種資料,當成連續型資料來分析並不合適,而使用類別型資料常用的卡方檢定則無法兼顧到有序資料的所有特性,所以常見的分析方式爲無母數的Kruskal-Wallis H test。而Bross1958年提出了另一個方式:計算Ridit score來分析。其想法爲先找一較大的資料爲標準母體,計算出ridit score(0~1之間的數字,代表位於某一等級的累積機率),再將算出的ridit score取代原先的各組的有序資料來進行傳統的連續型資料分析;換句話說,將原先的有序資料轉換爲連續資料,再進行像各組平均值比較(t test, ANOVA)等方法。


所以,由上述可了解,參照特定分佈單位分析(Ridit analysis)的好處在於可以使用傳統連續型資料的分析方法,而不破壞原始有序資料的特性。在適用的統計軟體部份,常見的軟體SAS, SPSS, STATA, R等皆可進行Ridit score的運算。

Reference
Bross, I.D.J. "How to Use Ridit Analysis", Biometrics 14, 1958, pp.18-38.


文章標籤

estat 發表在 痞客邦 留言(1) 人氣()

 

原來統計觀念的傳達方式可以這麼多元,今天要介紹的影片是由英國心理學會 (British Psychological Society; BPS) 募集資金製作的,希望透過舞蹈的趣味讓更多心理學系學生對統計觀念有更深刻的印象,是否覺得英國人很有創意呢?

  

 

影片中,以紅衣舞者與黑衣舞者代表不同的變項(Variable),舞者的表演分為三段:

第一段的表演所呈現的是「正相關」(positive correlation),紅衣舞者與黑衣舞者的移動方向與動作是一致的,當一個變項改變,另一個變項也以相同方式改變。在統計上以 r 表示相關係數(correlation coefficient),當資料呈「正相關」,r 的數值為正的,最大值為1,代表兩者的改變是完全一致的。

文章標籤

estat 發表在 痞客邦 留言(0) 人氣()



    當統計與近兩百年的人類歷史結合,我們來看看能說出什麼樣的故事?

 

 

英國BBC利用120,000個數據資料說明近200年的人類歷史,主軸環繞在200多個國家的健康與財富,統計圖的創意來自與動畫攝影技巧的結合,使200年如同穿梭了時光機,從過去回到了現在。


以下是文中的內容說明:

文章標籤

estat 發表在 痞客邦 留言(0) 人氣()

 

在統合分析中,針對合併後的總效果量(pooling effect size)去加以解釋說明該研究主題的統整結果;然而,由於收集的文獻中可能有出版偏誤(publication bias)而導致結果並不可信。所謂的出版偏誤即爲在大多數狀況下,研究人員總會傾向將有正向效果的文章發表,而負向效果的文章則不加以發表;就另一方面而言,或是期刋的編輯也傾向接受有正向效果的文章,而造成具負向效果或無明顯效果的文章不易爲人所知;這就形成了在收集文獻時,某些應存在的研究結果不易被發現。


一般在統合分析中常見去檢驗收集到的文獻中是否有出版偏誤的方式爲畫出漏斗圖(funnel plot),亦即以視覺化的方式來呈現正向效果以及負向效果的文獻是否如同漏斗形一樣對稱,如果是,則代表無出版偏誤。而除了漏斗圖之外,常見的方法爲計算失敗安全數(fail-safe N),所計算出的失敗安全數越大,即代表整合的效果量越穩健(robust),越沒有出版偏誤的情形。而分析軟體上常見的方法有:Rosenthal失敗安全數,orwin失敗安全數。以Rosenthal失敗安全數爲例,假設算出之失敗安全數爲253,其解讀爲如果要將目前顯著的整合效果量轉變成爲統計上無顯著意義,需要有253篇結果爲無明顯效果的文獻加入分析。統計分析軟體部份,SAS, R, CMA皆可進行失敗安全數的計算及繪製漏斗圖。最後,對於出版偏誤的現象應從根本來避免,最好的方式是從擬定嚴謹的收集文獻方法開始以儘量不使出版偏誤的產生。

Reference:
Orwin, R. G. (1983). A fail-safe N for effect size. Journal of Educational Statistics, 8, 157 – 159.
Rosenthal, R. (1979). The file drawer problem and tolerance for null results: Psychological Bulletin Vol 86(3) May 1979, 638-641.

 


文章標籤

estat 發表在 痞客邦 留言(0) 人氣()

 

在醫學研究中,主要的目的,通常在於驗證某種介入措施或治療方法是否有臨床上真正的效果。所以,最常見的實驗設計方式爲一組實驗組以及一組未受實驗效果影響的對照組;再針對兩組分別在兩個時間點,測量出前測值和後測值。在傳統的分析方法上,如果僅使用兩組的後測值來比較,很明顯地,完全忽略了前測可能造成的影響,而導致結論錯誤;另外,如果只單以兩組個別的前後測值來比較,並無法證明有介入措施的實驗組是否效果會優於無介入的對照組。

 

所以較爲適當的分析方式爲算出實驗組的後測效果去前測效果(T),以及對照組的後測效果減去前測效果(C),再將這兩個值相減(T-C),來比較介入措施隨時間改變後是否真具有臨床上的效果。這種分析的方式,在計量經濟學上稱之爲差異中差異方法(Difference-in-Difference method, DID)。以一般醫學或流病研究上會用到的長期追蹤資料分析模型爲例:假設Y爲測量值(前測值,後測值)group代表不同組別(實驗組,對照組)visit代表前後測不同的時間點(前測時間點,後測時間點),則模式可以寫成

 

 

文章標籤

estat 發表在 痞客邦 留言(0) 人氣()


  在資料探勘(Data mining)領域中,決策樹(Decision Tree)和類神經網路(Artificial Neural Network),都是常見的方法。隨著電腦資訊科技的發展,大型資料的分析已成了必然的趨勢,而資料探勘即是將大型資料中,較具有代表性之變數萃取出的技術。例如在醫學研究上,對某種特定的疾病(糖尿病,代謝症候群等)找出可以前期篩檢分類,或是預測的因子時,就常以決策樹的方法來進行。如同類神經網路方法,在進行分析的過程中,通常也會先以建模資料建立模式,再將驗證資料代入建立完成的模式以確認其預測力高低。而決策樹較爲不同之處在於以圖像化來呈現結果,即使不了解背後理論,仍可解讀及下判斷。

 常見的決策樹分析方法有兩種:CART(Classification And Regression Tree)CHAID(Chi-squared Automatic Interaction Detection),其最大的差異在於CART可以處理連續或是類別型的變項,而CHAID僅能處理類別變項;所以如果連續型變項要使用CHAID方法,要先轉成類別型資料。進行決策樹分析要注意的是,當樣本數太少,類別太多時,不易正確分類。在實際執行上,統計分析軟體大多都有可進行決策樹分析的套件,如常見的SAS, R, SPSS.

Reference:
Hastie, T., Tibshirani, R., Friedman, J. H. (2001). The elements of statistical learning : Data mining, inference, and prediction. New York: Springer .
Rokach, Lior; Maimon, O. (2008). Data mining with decision trees: theory and applications. World Scientific Pub Co Inc.


文章標籤

estat 發表在 痞客邦 留言(1) 人氣()

 

在存活分析中, 除了要比較不同組之間(例如不同的治療方式或是否有用藥)存活率是否有顯著的差異之外,通常還需去了解危險因子(risk factors)爲何。這時就要進行迴歸分析(regression analysis),而對於存活資料而言,最常用的模式爲Cox比例風險模式(cox proportional hazard model)。不過,使用Cox比例風險模式時,有一基本假設必須要符合,即等比例風險假設(Proportional hazard assumption, PH assumption);也就是說,針對某一危險因子而言其風險比,不能隨著時間而有所改變,必須要固定。所以當此假設違反時,將Cox比例風險模式做一些修正是必要的,其中最重要且常用的爲分層cox 迴歸模式(Stratified cox regression)


所謂的分層cox 迴歸模式即是將研究者較不感興趣,或較不重要的干擾因子(confounding factors)(而且這些因子並不符合等比例風險假設),當成分層變數,在不同層的基線危險函數(baseline hazard function)是不同的,而其它在模式中的危險因子,皆爲等比例風險。雖然,分層cox 迴歸模式在違反等比例風險假設時,仍可以進適當的分析,但是其缺點在於分層的層數若太多,統計檢定力(statistical power)會降低。目前較常見的統計軟體,例如,SAS, R, STAT, SPSS等皆可用來進行分層cox 迴歸模式分析。


Reference:
J. Klein and M. Moeschberger, Survival Analysis: Techniques for Censored and Truncated Data. Springer, second ed., 2003.


文章標籤

estat 發表在 痞客邦 留言(0) 人氣()


廣義估計方程式(GEE)常用在臨床研究中類別型的長期追蹤資料分析(Longitudinal data analysis)。然而,由於受試者的某些原因(例如身體產生不良反應(AE),或是失去連繫(loss of follow-up)等原因)而產生缺失值(missing value)。當缺失值的情形爲完全隨機(missing completely at random)之下,可以直接用GEE來分析;不過,一旦缺失值爲隨機(missing at random)的情形下,直接套用GEE來分析所得到的爲偏誤(biased)的估計。當然,以多重插補法(multiple imputation)來分析是一個可行的方向,另外一個方式即是以加權廣義估計方程式(wGEE)來分析。

加權廣義估計方程式在做法上即是先以logistic regression算出各不同時間點觀測到outcome的機率(propensity score)(以過去時間點的outcome當成是解釋變數,來預測下一時間點的出現機率!),再以此機率當成是權重(weight)來對一般的廣義估計方程式加權。其想法是以出現機率(propensity score)對每個觀察到的個案加權,達到調整缺失值的目的。目前,常用來進行加權廣義估計方程式的軟體爲SAS, R.


Reference:
G. M. Fitzmaurice , Nan M. Laired and James H. Ware. (2004). Applied Longitudinal Analysis. Wiley.


文章標籤

estat 發表在 痞客邦 留言(0) 人氣()


存活資料中最常見的分析方法爲Kaplan-Meier, 或是Cox regression,然而上述方法僅適用於單一事件(event)發生率的評估,例如常見的死亡爲感興趣的事件。但在醫學研究中實務上應用時,可能存在有二種以上不同的事件,而感興趣的事件爲其中一種。在這種情形下,出現某種事件可能會掩蓋了其它事件發生的可能性,此即爲竸爭風險。例如,針對白血病病患的研究,進行骨髓移植後,可能發生的事件(event)有二種:白血病復發(relapse)以及移植失敗造成的死亡(death)。在這個例子中,如果我們要探討的是骨髓移植後的復發率,那麼移植失敗造成的死亡(death)即爲復發(relapse)的竸爭風險事件(competing risk event)


在進行統計分析時,最大的問題在於當我們將復發定爲感興趣事件時,移植失敗的死亡情形該如何處理?此種狀況下,不再使用傳統的存活函數(survival function)來呈現不同時間點所對應的存活率;而是以累積發生函數(cumulative incidence function),來呈現特定事件在不同時間點發生的可能性。目前較常見用來分析竸爭風險資料的統計軟體爲SAS, R


Reference:
Pintilie M. Competing Risks: A Practical Perspective. John Wiley & Sons: New York, 2006, 240pp.


文章標籤

estat 發表在 痞客邦 留言(0) 人氣()


存活分析方法是用於分析從個案進入研究到發生事件的時間(time to event)資料,資料最大的特點在於收集到的資料不完整(incomplete)。而此種資料不完整的現象,常來自於研究上的限制,例如在醫學研究中最常見的右設限(right censored),是由於研究時間中止,而某些個案尚未發生感興趣的事件;此類個案僅能紀錄到從進入研究到研究截止的時間,而非真正發生事件的時間。除此之外,另一種常見影響資料不完整的情形爲左截切(left truncation)。左截切的情形大多發生於研究者感興趣的是個案的存活年齡,如果個案在研究開始前即死亡,則完全無法被觀察到,也就是說,有別於右設限,左截切僅能觀察到部份的個案資料。

例如,某地區設置了老人安養中心,必須要年滿65歲方能入住,而研究者希望了解入住安養中心,對於存活率的影響。在此例中壽命的資料即爲典型的左截切資料,因爲個案必須要活超過65歲才能進入中心,在之前死亡的個案,則完全無法觀察到,忽略不考慮此現象會造成樣本長度偏誤(length bias)。在統計分析方面,右設限資料是以Kaplan-Meirer estimator來估計其存活率,而左截切資料,則是以Lynden-Bell estimator來估計。目前較常見用來分析左截切存活資料的統計軟體爲R


Reference:
Klein JP, Moeschberger ML. Survival Anal, 2nd edn. Springer: New York, 2003, 536pp.


文章標籤

estat 發表在 痞客邦 留言(0) 人氣()

 

在生物醫學的研究中,常需對感興趣的兩個變數來檢驗是否具有相關性,以及如具有相關性,其相關的方向爲正向或是反向相關?例如:體脂肪與血壓,體重與血糖值高低之間的關聯性。而最常被應用來呈現相關性的指標即爲pearson 相關或spearman相關,然而這兩個指標在應用的情形上有所不同。

一般而言,Pearson 相關常用來呈現連續型(continous)變數之間的關聯性,尤其在變數符合常態分配的假設下,最爲精確;而spearman相關則不需符合常態,僅要求變數的資料型態至少爲有序的(ordinal)。另一個選擇上的重點爲在資料具有離群值時(outliers),以spearman相關來呈現會是較佳的選擇,因爲其不受離群值的影響(這是因爲spearman相關是以排序值(rank)來計算相關係數!)

更深入的來看,pearson相關所衡量的是線性相關(linear),也就是說,主要偵測的是兩變數之間是否有線性相關。所以,當兩變數之間具有相關,但爲非線性時pearson就不是最佳的方法。在這種情形下,spearman更爲合適,例如以下以學生的國文和數學成績之間的相關資料:

pearson correlation data  

其資料的散佈狀態見下圖,

pearson correlation  

經分別計算相關係數後,可得pearson correlation=0.8829, spearman=1。事實上由上圖可看出,資料點間之相關並非線性,所以兩種相關係數值計算結果有很大的不同!所以,spearman相關除了不須常態假設外,在具離群值,或是兩變數間之相關爲非線性時都是適合的使用時機。

文章標籤

estat 發表在 痞客邦 留言(1) 人氣()

 

在醫學研究中,常需要對某種特定疾病 (例如,心血管方面疾病,代謝症候群等)找出其顯著的影響因子,再進一步地以這些影響因子來預測是否有得病。就常用的邏輯斯迴歸(logistic regression)而言,亦即先算出各因子組合而成的危險分(risk score),再以危險分數來區分其有得病或是沒得病,此時用來評估其區分精確度的數量,就是時常在文獻中看到的---一致性統計量(C(Concordance)- statistics)。在上述的邏輯斯迴歸例子中,事實上一致性統計量等於 ROC曲線分析中的曲線下面積(AUC)—這是在進行醫學診斷分析時,常會用到的


不過,一致性統計量的用途更爲廣泛,即使是在存活資料下( 有病與否和時間長短有關;time to event data)所使用的Cox 迴歸模式,也可以算出一致性統計量,來比較所建立的不同Cox 迴歸模式(影響因子選擇不同),何者的預測能力更佳。在統計軟體部份,目前較常見用來進行一致性統計量分析的軟體爲SAS, R



Reference

Hajime Uno, Tianxi Cai, Michael J. Pencina, Ralph B. D’Agostino, and LJ Wei. On the C-statistics for evaluating overall adequacy of risk prediction procedures with censored survival data. Statistics in Medicine 2011, 30:1105-16

文章標籤

estat 發表在 痞客邦 留言(0) 人氣()

1 2