目前分類:統計分析方法簡介 (32)

瀏覽方式: 標題列表 簡短摘要

 

蒙地卡羅方法(Monte Carlo method)是由Metropolis & Ulam1949年所提出的,一種數值方法,以模擬(simulation)的方式對難以解決的問題求得近似的解答。最早用於數學以及物理學上的應用,但近二十年來,在其它的領域也被廣泛的運用,包含金融,經濟,醫學各方面。在數學上最廣爲應用的即是在解出積分近似值,而蒙地卡羅方法的主要想法爲(1)先定義出用來模擬的機率密度函數(probability density function, pdf) (2)再以模擬出的資料以統計方法來估計感興趣的未知參數(parameters)。而其背後的理論爲大數法則---亦即只要樣本數夠大,樣本平均會接近母體的平均


在醫學研究上,最常應用蒙地卡羅方法爲醫學影像處理方面的問題,以蒙地卡羅法來估算影像的平面面積或是立體的體積大小;此外,蒙地卡羅法更應用於核子醫學上,來估計人體吸收輻射的劑量等。在進行蒙地卡羅法時,須自行撰寫程式(SAS, R….),以完成模擬資料及估計參數的步驟。



Reference:

文章標籤

estat 發表在 痞客邦 留言(0) 人氣()

 

 

類神經網路(Artificial Neural Network)的方法,隨著近年來電腦資訊設備發展,有越來越廣泛運用的趨勢。其想法即爲由收集至的系統輸入(input)與輸出(output)的資料,建立模式(model)(輸入資料與輸出資料的關聯性)。有了這樣的模型便可用於預測、決策、分類。就統計分析而言,輸入資料即爲解釋變項,而輸出資料即可視爲結果變項,在統計分析方法中,常見的迴歸分析即可以視為一種類神經網路的模式。而類神經網路可以有更複雜的型式,例如解釋變項爲非線性的模式等等。


類神經網路模式其主要的目的通常在於預測。所以通常會將資料分成兩個部份:建模資料(training data)以及驗證資料(testing data);也就是說,先以建模資料建立模式,再將驗證資料代入建立完成的模式以確認其預測力高低。在醫學上,類神經網路的方法多應用於心血管疾病診斷、基因分類等。目前,類神經網路模式有相當多的軟體可用來分析,例如常見的SAS, R, SPSS, STATISTICA.


Reference:
Smith, Murray (1993) Neural Networks for Statistical Modeling, Van Nostrand Reinhold

文章標籤

estat 發表在 痞客邦 留言(0) 人氣()

 

 

在臨床研究所收集到的存活資料中,某些解釋變數的值是會隨著追蹤時間而改變;例如針對病人不同的狀態而變換的治療方式或是更換不同的藥物。在這種情形下,如要探討其危險因子的影響,典型的Cox比例風險模式(cox proportional hazard model將不適當,那是因爲使用Cox比例風險模式時,有一基本假設必須要符合,即等比例風險假設(Proportional hazard assumption, PH assumption);也就是說,針對某一危險因子而言其風險比,不能隨著時間而有所改變,必須要固定。所以當此假設違反時,Cox比例風險模式做一些修正是必要的,因爲上述的例子中,風險比(hazard ratio:HR)是會隨時間而改變的。所以,一個cox 迴歸模式的延伸應用:具時間相依共變數(Cox regression with time-dependent covariates)即被提了出來。

具時間相依共變數(Cox regression with time-dependent covariates)的方法主要可應用於兩方面:(1)用來檢定存活資料是否符合等比例風險假設,因爲統計圖的判讀,有時太過主觀,而缺乏證據。(2)可用來分析隨時間變化的共變數,在不同追蹤時間區段內,來分析其風險比的變化情形;也就是說,在某些區段內,風險比可能大於1,某些區段可能小於1,精準的給出時間分段的切點。在統計分析軟體的部份,目前SAS, R, SPSS等皆可用來進行cox 迴歸模式:具時間相依共變數方法(Cox regression with time-dependent covariates)分析。

 


Reference:
J. Klein and M. Moeschberger, Survival Analysis: Techniques for Censored and Truncated Data. Springer, second ed., 2003.

文章標籤

estat 發表在 痞客邦 留言(0) 人氣()

 


在醫學研究的領域中,階層性的資料結構相當常見。例如在醫院收集的病患資料,有一些是用來描述病患特徵的變數,如性別,年齡等;另外,有一些變數則在表現醫院的特性,如醫院層級別:醫學中心,區域醫院,地區醫院。此時,用傳統的迴歸模式來分析,會忽略了團體層級的影響(組內相關),而造成誤差的變異被低估。所以,較為適當的方法為使用多層次的分析(multilevel analysis)---也就是目前廣被使用的階層線性模式(Hierarchical Linear Model: HLM)

在階層結構的資料中,主要的特徵爲具有個體層級以及總體層級,例如上述的例子中,病患即爲個體層級,而不同家的醫院即爲總體層級。此外,在重覆測量設計中,針對每一受試者(subject)在不同時間點測量感興趣的反應變項(response),亦可視爲階層化的資料,在這種情形下,個體層級爲不同次重覆測量,而總體層級爲不同的受試者(subject)。階層線性模式分析上的想法即爲將第一層各分層的迴歸係數(coefficient)當成是第二層反應變數(response),這樣的方式即爲斜率結果變項(slope as outcome)分析。在執行分析的軟體上,目前大多以HLM, STATA來進行階層線性模式的分析。

 


Reference:

文章標籤

estat 發表在 痞客邦 留言(0) 人氣()

 

流行病學中控制干擾因子的方式之一為配對(matching),將會影響疾病發生與否的干擾因子作為配對條件,例如年齡、性別、是否吸菸等,讓這些因子在病例組與對照組間的分佈是一致的,則不致干擾觀察的結果。若病例組為罕見疾病,為達統計上的檢定效力(power),病例組與對照組的比例可能要1:n,一般的研究是1:3,有的研究, 由於對照組的母群不夠大,配對比例上則為m:n

以下介紹以SASPHREG程序分析條件式羅輯斯回歸,該程序可分析1:nm:n兩種配對情形。程式中的Time為虛擬的存活時間變數(dummy survival times ),使病例組的事件時間(event time)一致,對照組為設限資料(censored)且發生在event之後。([程式一])

[程式一]


data aa;
set my data;
time=2-group;

文章標籤

estat 發表在 痞客邦 留言(0) 人氣()

 

傳統的存活分析方法大多用於估計單一次事件(例如:死亡,得病等)的存活率,但是在臨床研究上,有些存活資料屬於復發事件(recurrent event);例如,同一個體(subject)在追蹤時間(follow-up time)內某種症狀發生的次數及其發生時間的資料,或是嚴重憂鬱的發生次數及發生時間。當然,以傳統的存活分析的觀點,可以僅看第一次復發事件的存活分析,但很明顯的缺點是忽略了其他復發事件發生的訊息。


多次復發存活資料常見的分析方法爲以計數過程(counting process)爲基本想法的模型,如Andersen-Gill model(1982), Prentice-Williams-Petersen model(1981):前者爲獨立增量的假設,後者爲條件模式(conditional model) 。一般而言,Andersen-Gill model較容易用來進行推論,但其缺點爲對於同一個體,不同區間的復發事件之間的相關性,並沒有特別的處理。目前較常見用來分析復發事件存活資料的統計軟體爲SAS, R 

Reference:
P. K. Andersen and R. D. Gill. (1982). Cox's Regression Model for Counting Processes: A Large Sample Study. Ann. Statist. Volume 10, Number 4.


文章標籤

estat 發表在 痞客邦 留言(0) 人氣()

 

在臨床上要分析藥物與不良反應(Adverse Event; AE)的劑量效應 ,若想觀察AE是在不同劑量發生的機率是否相同,可利用chi-square test for contingency table analysis分析AE與劑量是否有線性的關係( linear association)但檢定的效力(POWER)可能會被自由度分掉COCHRAN-ARMITAGE TREND TEST( Cochran, 1954; Armitage, 1955)是比較Powerful的統計方法,虛無假設為AE與劑量無線性的關係(或不同劑量發生AE的機率相同),檢定公式如下:

COCHRAN-ARMITAGE TREND TEST

 


SAS程式如下
proc freq data=ae_doseresp;
tables dose*outcome/ TREND; 
weight count;
ods output TrendTest=TrendTest;

文章標籤

estat 發表在 痞客邦 留言(0) 人氣()

 

典型的存活分析方法僅能用於資料之間爲獨立的情形下,然而,在臨床研究上,常收集到的資料是具有相關性的;例如,同一個體(subject)中的雙眼,腎臟,或是其它有兩個以上的器官所收集到的存活資料。此外,同一家庭內的兩個不同個體的存活資料,亦可視爲此種資料型態。


就統計分析而言,配對型存活資料常見的分析方法爲分層Cox模式(Stratified Cox model)以及脆弱模式(Frailty model)。分層Cox模式的做法是將每一對,當成是分層的變數,此做法在實際分析上有其便利性,因爲幾乎所有統計軟體皆可操作(SAS, STATA, R, SPSS….),而其缺點在於分層的層數多時,參數估計的檢定力(power)較低。另外,脆弱模式則以脆弱效果(frailty effect)來處理每一對內資料的相關性,要先對脆弱效果做機率分配的假設,最常見的脆弱模式爲Gamma frailty model,即假設脆弱效果爲Gamma分配。目前較常見用來分析脆弱模式的統計軟體爲SAS, R


Reference:
Aalen, O. O. and Tretli, S. (1999). Analyzing incidence of testis cancer by means of a
frailty model. Cancer causes and control 10, 285 - 292.


文章標籤

estat 發表在 痞客邦 留言(0) 人氣()

 

上文中提到SROC是統合分析在醫學診斷工具結果合併的方法,雖然將敏感度(sensitivity)和特異度(specificity)兩個測量的值整合在模式中,但其明顯的缺點即在沒有考量到敏感度(sensitivity)和特異度(specificity)之間的相關性(correlation)。正因爲如此,就有學者提出了更爲複雜精細的分析方法---階層式摘要ROC曲線(HSROC)HSROC模式中,有兩個不同的層次:同一研究結果內(within studies)及不同研究結果間(between studies)藉此來使得合併的效果值更加合理準確,

其模式爲
ln(πij/(1-πij))=(θi+αi*dij)exp(-β*dij), i=1,2,…,k. j=1,2.


其中θi, αi皆爲隨機效果(random effect)θi代表的是不同的切點(threshold); αi代表了診斷準確度(diagnostic accuracy). dij代表黃金標準(gold standard)所測得的結果是否爲有病(positive)
目前可用來分析HSROC的軟體包含SAS, STATA, R等,皆需要以輸入程式的方式來操作,所以要先對HSROC有一定程度的了解,才能用於分析及最後結論的詮釋。


Reference:
Petra Macaskill (2004). Empirical Bayes estimates generated in a hierarchical summary ROC analysis agreed closely with those of a full Bayesian analysis. J. Clin. Epidemiol 57: 925-32.
Rutter CM, Gatsonis CA (2001). A hierarchical regression approach to meta-analysis of diagnostic test accuracy evaluations. Stat Med 20: 2865-84.

文章標籤

estat 發表在 痞客邦 留言(0) 人氣()

 

One-way ANOVA 可以用來檢定3組以上的平均值是否相等,但必須符合常態分配的基本假設與變異數同質的檢定,並且需要有足夠的樣本數,若樣本不足或資料不符合常態分配時,可選用無母數方法中的Kruskal-Wallis tset (又稱H檢定法),檢定的變項可以是等距或等比率變項,或是次序變項,以考驗各組平均等級的差異。如果整體考驗之卡方值達統計上的顯著意義,則拒絕虛無假設,表示至少有一對組別的平均等級不相等,至於哪幾對間有差異則要進行事後比較。公式如下:

 

KW


R為任一組的平均等級;Z為標準化值;α為顯著水準;k為組數;N為總人數;n為任一組的人數。


若任2組的平均等級差的絕對值大過檢定值KS    ,則2組間具有統計上的差異。

 

  

文章標籤

estat 發表在 痞客邦 留言(0) 人氣()

 

ROC 曲線是檢查醫學診斷工具準確性的重要統計方法,它藉由與黃金標準(gold standard) 的比較計算出敏感度(sensitivity)和特異度(specificity),在同時考慮這兩個量的訊息下,做出最後的結論。統合分析(Meta-analysis)是合併(pooling)同一研究主題下,不同研究成果的方法,尤其在實證醫學(EBM)上常被運用。在診斷工具準確性的整合結果上,我們可以很直接的分別合併敏感度或特異度,以得到的結果加以解釋;但此做法的缺點在於沒有同時考量到這兩個測量值。所以,在統合分析上常用較爲合理的方法爲Summary Receiver Operating Characteristic curve(SROC)


SROC
是將敏感度(即爲True positive rate, TPR), 特異度(即爲1-False positive rate, 1-FPR)這兩個值經過適當的變換(transformation)後,再以線性迴歸(linear regression)模式來分析。迴歸模式爲D=α+βS,
其中D=ln(TPR/1-TPR)-ln(FPR/1-FPR),S= ln(TPR/1-TPR)+ln(FPR/1-FPR).

Reference:
Irwig, L., Macaskill, P., Glasziou, P., Fahey, M. (1995). Meta-analytic methods for diagnostic test accuracy. J. Clin. Epidemiol 48: 119-30.
Midgette, A.S., Studel, T.A., Littenberg, B. (1993). A meta-analytic method for summarizing diagnostic test performances: receiver-operating-characteristic-summary point estimates. Med. Decis Making 13: 253-7.


文章標籤

estat 發表在 痞客邦 留言(0) 人氣()

 

ROC曲線 (Receiver operating characteristic curve) 是第二次世界大戰中的發明,最初用在1941年的珍珠港事件,以偵測戰場上的日軍載具(飛機、船艦),其原理係利用雷達上的信號強弱設定閾值,以作為軍事行動的判斷依據[1],而發展出的信號偵測理論(Signal Detection Theory )1950年代被應用在心理學領域[2]。此後的數十年,ROC分析被用於無線電、生物學、犯罪心理學領域中,而且最近在機器學習machine learning和數據挖掘data mining領域也得到了很好的發展[3]。在醫學上,廣泛地應用在疾病的診斷,同時也被應用在流行病學、實證醫學研究、放射技術、社會科學的研究上[4-6]。在臨床上可能會面對檢驗方法複雜、耗時、有侵入性、結果需要有經驗者才能準確判讀等因素,而利用ROC曲線發展出更簡易操作的替代方式,並與臨床認定的黃金標準(Gold standard)作比較,例如以癌症的切片檢查作為黃金標準,該標準將病人判定為罹癌與未罹癌,以鑑定新的診斷工具替代黃金標準的可行性。

 

ROC3   

圖片來源:以斯帖統計顧問公司

(繪圖軟體: SigmaPlot繪製方法請連結http://goo.gl/nCFg3y

 

在信號偵測理論中,ROC曲線是以圖像的方式呈現二分類系統(binary classifier system)在特定的分類或閾值(discrimination threshold)下的表現。圖形的縱軸(y-axis)為真陽性率(true positive rate; TPR),又稱為敏感度(sensitivity);橫軸(x-axis)為偽陽性率(false-posiitive rate; FPR),以1 – 特異度(specificity)表示,而敏感度為將結果正確判斷為陽性的機率,特異度係將結果正確判斷為負向或陰性的機率。當指定一個分界點(cut-point)來區分檢驗的陽性與陰性時,這個分界點會影響到診斷工具的敏感度(sensitivity)及特異度(specificity)。在醫學上,敏感度表示有病者被判為陽性的機率,而特異度表示無病者被判為陰性的機率。在曲線上的任何一個點都會對應到一組敏感度與1-特異度,而敏感度與特異度會受到分界點移動的影響。

 

ROC1   

文章標籤

estat 發表在 痞客邦 留言(3) 人氣()

«12