以下為簡易的Dummy variable(虛擬變項)的建立,在回歸分析中,當解釋變數為類別型資料,例如藥物的濃度分為4類,其中一類為參考組,則每一組將與參考組作比較,比較的組數有3組。在回歸模式中不能直接放該類別變項(CON_GRP),否則會視同連續型資料。

因此需要設3Dummy variable,例如以下程式的CON_1~CON_3,當3個變項為0(0,0,0),該組為參考組,當CON_11(1,0,0),為第一組與參考組間的比較,其他以此類推。而Dummy variable的程式語法如[程式一]CON_GRP=1時,CON_1=1CON_GRP=2時,CON_2=1CON_GRP=3時,CON_3=1,其他非1的數值,自動生成為0

[程式一]

data aa1;
set aa;
CON_1=(CON_GRP=1); /*Dummy variable*/
CON_2=(CON_GRP=2);
CON_3=(CON_GRP=3);
run;

文章標籤

estat 發表在 痞客邦 留言(0) 人氣()

 

在臨床上要分析藥物與不良反應(Adverse Event; AE)的劑量效應 ,若想觀察AE是在不同劑量發生的機率是否相同,可利用chi-square test for contingency table analysis分析AE與劑量是否有線性的關係( linear association)但檢定的效力(POWER)可能會被自由度分掉COCHRAN-ARMITAGE TREND TEST( Cochran, 1954; Armitage, 1955)是比較Powerful的統計方法,虛無假設為AE與劑量無線性的關係(或不同劑量發生AE的機率相同),檢定公式如下:

COCHRAN-ARMITAGE TREND TEST

 


SAS程式如下
proc freq data=ae_doseresp;
tables dose*outcome/ TREND; 
weight count;
ods output TrendTest=TrendTest;

文章標籤

estat 發表在 痞客邦 留言(0) 人氣()

 

Logistic Regression與線性迴歸最大的不同是依變項性質的不同,使得兩者在參數估計與假設上也有所不同,前者的結果變項(outcome)為類別型資料(categorical data),後者為數值型資料(numeric data)Logistic Regression分析的假定:觀察值樣本在依變項上的機率分配呈S型分佈,此分佈又稱Logistic分配。

Logistic Regression
最常應用在流行病學的Case-Control study,常見的指標是勝算比(Odds Ratio),其意義為得病的人有暴露與未暴露的比值(勝算; odd)相對於未得病的人有暴露與未暴露的比值,該值=1表示疾病與暴露間的相關性不高。由exp(β)可求得Odds RatioβLogistic Regression的估計參數。

SAS
的程式如下:以proc logistic程序分析,dependent為結果變項, 通常1為有病,0為沒病,Group為解釋變數,在此為組別,通常為有暴露(EXPOSURE)或沒暴露(NON- EXPOSURE)於特定風險的兩個組別。descending為設定dependent=0為參考組,RISKLIMITS為列出95%信賴區間。以SASODS功能(Output Delivery System)parameterestimates(參數估計值)存成SAS檔,包含p value也一起存出來,存成檔案pp;以ODS oddsratio及其95%信賴區間存出,存成檔案qq

最後利用merge指令將參數估計值與oddsratio的結果合併成一個檔案,即可直接整理至發表要用的表格上,如表格所示。

[
程式一]

文章標籤

estat 發表在 痞客邦 留言(1) 人氣()

 

在很多醫學及流行病學的研究中,多以建立大型的世代(cohort)來對個體進行研究。在分析感興趣的結果(outcome)時,常需要進立迴歸模式(regression model),以控制干擾因子(confounding factors),得到較爲正確結論。然而,由於並非所有個體的干擾因子皆可很容易的取得,尤其在研究世代樣本較大的情形下,此現象更爲明顯。正因如此,有學者提出了二階段的抽樣設計方法(two stage sampling)以解決這種問題;簡單的來說,即爲在第一階段先對研究世代中的個體收集結果變項(outcome variables)及較易取得的干擾變項,例如常見的性別,年齡等,接下來,再由第一階段中的個體,抽出部份對象,來收集不易得到的干擾因子(例如有無特定疾病史,有無抽煙習慣,通常大多以問卷調查來得到此類的資料),再以整個第一,二階段收集到的資料來分析。

至於第二階段樣本的抽取方式,有許多不同的選擇,以常見的二元結果變項(binary outcome)爲例,假設研究問題爲探討學齡前兒童氣喘發生的主要因子。在第二階段的抽樣的常見方法爲:隨機抽樣(random sampling),個案病例對照設計(case-control design),平衡設計(balanced design)等。其中,以平衡設計對估計值(OR)而言,最爲有效率(efficient)。在進行統計分析步驟,須自行撰寫程式(SAS, R….),以完成繁雜的運算。 

Reference:
Neyman, J. (1938). Contribution to the theory of sampling from human populations. Journal of the American Statistical Association 33, 101-116.


文章標籤

estat 發表在 痞客邦 留言(0) 人氣()

 

如果收回的問卷,在日期部份將年、月、日各別輸入資料檔中,但當要計算時間或年齡時卻不知所措,該怎麼辦?SASMDY(month,day,year)函數可以將年月日重新組成一個新的日期,如此就可進一步計算了。

以下建立一個資料檔為AA,輸入(INPUT) YEAR, MONTH, DAY等變數。利用MDY()產生一個新變項BIRTHDAY,這個變數是透過YEAR, MONTH, DAY所組成,年月日變數依MDY()中的MONTH,DAY, YEAR順序依序放入,再以FORMAT指令將BIRTHDAY變數轉成YYMMDD10.的格式,即西元年--日,就完成日期的組合(參見程式與結果)

[ 程式 ]

data aa;
input year month day;
birthday=mdy(month,day,year);
format birthday yymmdd10.;

文章標籤

estat 發表在 痞客邦 留言(0) 人氣()

 

典型的存活分析方法僅能用於資料之間爲獨立的情形下,然而,在臨床研究上,常收集到的資料是具有相關性的;例如,同一個體(subject)中的雙眼,腎臟,或是其它有兩個以上的器官所收集到的存活資料。此外,同一家庭內的兩個不同個體的存活資料,亦可視爲此種資料型態。


就統計分析而言,配對型存活資料常見的分析方法爲分層Cox模式(Stratified Cox model)以及脆弱模式(Frailty model)。分層Cox模式的做法是將每一對,當成是分層的變數,此做法在實際分析上有其便利性,因爲幾乎所有統計軟體皆可操作(SAS, STATA, R, SPSS….),而其缺點在於分層的層數多時,參數估計的檢定力(power)較低。另外,脆弱模式則以脆弱效果(frailty effect)來處理每一對內資料的相關性,要先對脆弱效果做機率分配的假設,最常見的脆弱模式爲Gamma frailty model,即假設脆弱效果爲Gamma分配。目前較常見用來分析脆弱模式的統計軟體爲SAS, R


Reference:
Aalen, O. O. and Tretli, S. (1999). Analyzing incidence of testis cancer by means of a
frailty model. Cancer causes and control 10, 285 - 292.


文章標籤

estat 發表在 痞客邦 留言(0) 人氣()

 

時間間隔的計算,在許多研究中是很重要的,包括用藥時間、存活時間、居住時間、曝露在特定污染環境的時間、住院時間等。所使用的SAS函數為INTCK('interval',from,to)'INTERVAL'為起迄時間的時間間隔,單位可以是day, week, month, quarter, year等。FROMTO各是「起」與「迄」的時間。

[程式一] 建立一組起迄時間,依序是start_date, end_date,日期格式是yymmdd10.,即西元年-
-日的格式。

[程式二] 在程式二中產生了5個變項(VARIABLE)DAY, MONTH1, MONTH2, YEAR1, YEAR2DAY為介於起迄間的天數;MONTH1為以SAS
預設的MONTH算起迄間的月數,從結果可知SAS將取整數的月數(128個月),小數點會被捨去(即無條件捨去)MONTH2為以DAY除以30.475計算精準的月數(128.263個月);同樣地YEAR1為以SAS預設的YEAR計算的起迄間的年數,從結果可知,SAS將取整數的年數(10),小數點會被捨去(即無條件捨去)YEAR2為以DAY除以365.25(4年潤年一次)計算精準的年數(10.6886)

[
程式一];
data aa;
input id $ start_date yymmdd10. end_date yymmdd10.;

文章標籤

estat 發表在 痞客邦 留言(3) 人氣()

 

SASLibraries/Maps下有一個檔案Taiwan, 記錄了台灣各縣市的經緯度,透過SASproc gmap,我們可以將表格內容地圖化,以民國100年各縣市之標準化死亡率為例,透過地圖化,可以很快地看出死亡率的高低與各縣市的都市化程度有關。[參見台灣地圖]


[程式一] 建立民國100年各縣市之標準化死亡率資料檔,SDR為標準化死亡率。[: 因為各縣市人口結果不同,故以2000年世界標準人口調整後的標準化率作比較]


[程式二] 為不同等級的死亡率設定在地圖上的色塊,例如 pattern5 v=ms c=brown; 其中V=MS指明區塊為實心,c=brown指明區塊顏色為棕色。


[程式三] PROC FORMAT/VALUE介定區塊對應的標準化率值,並形成一個格式化名稱degfmt,任何一個變項套用這個格式,數值在300-400間的就被定義為'350-400',其他以此類推。


[程式四] proc gmap畫地圖,map=maps.taiwan說明引用的地圖經緯來自目錄館為MAPS下的資料檔TAIWAN,繪圖的來源檔為data=aa以各縣市(ID)標示區塊,並將將SDRdegfmt. 格式套用。

文章標籤

estat 發表在 痞客邦 留言(0) 人氣()

 

長期追蹤資料(Longitudinal data)常見於各領域研究中,由於對同一個體(subject),在不同時間點所收集到觀察值具有關聯性,所以依照研究目的不同(比較不同處置方式(treatment)的效果,找出影響因子,隨時間變化的趨勢(trend analysis))在分析上多使用廣義估計方程式(GEE), 混合模式(Mixed model), 廣義線性混合模式(GLMM)等方法。此外,長期追踨資料常出現的狀況爲:不同個體間,response隨時間變化的情形相差很多,以固定(fixed effect)效果來探討,分析結果並不恰當;較爲合適的處理是考慮隨機效果(random effect)

而群組化軌跡模式(Group-Based Trajectory Modeling, GBTM)即是先將response隨時間變化的情形分成幾大類,以使研究者可以了解主要的變化形態有哪幾種?每種所佔的比例爲何?更可以進一步地找出危險因子(risk factors),就分析的目的而言,與前述的方法是不一樣的。分析軟體部份,目前大都使用SAS來進行GBTM, 另外,Mplus, STATA, 以及R也都有可以分析GBTM的相關套件。

Reference:
Daniel S. Nagin, Candice L. Odgers(2010). Group-Based Trajectory Modeling in Clinical Research. Annu. Rev. Clin. Psychol., 6, 109–38.


文章標籤

estat 發表在 痞客邦 留言(0) 人氣()

 

在很多研究當中,探討影響個體(subject)結果變項(outcome)的因子時,除了要考慮到個體自身收集到的解釋變數,同時也要考慮與個體存在高度相關的人,所收集到的解釋變數;例如常見的夫-妻,照顧者-被照顧者,此種資料稱之爲對偶資料(dyadic data)。很明顯的,對偶資料之間具有相關性,而且會影響對結果變項的解釋或預測。(舉例來說,結果變項爲:夫生活品質滿意度,解釋變項爲:夫社經地位高低,妻社經地位高低)

APIM在統計分析方面,如果使用傳統的多元迴歸分析(multiple linear regression),無法將解釋變數之間的相關性納入分析,所以並不恰當,原因在於多元迴歸分析中,解釋變數是假設爲獨立的。取而代之的,APIM多用多層次模型(Multi-Level Model: MLM)方法來分析,亦有人稱之爲階層線性模式法(Hierarchical Linear Model: HLM)。另外,也可以將每一對設定爲隨機效果(random effect)以混合模式(Mixed model)來分析之。


Reference:
Kenny, D. A. (1996a). Models of nonindependence in dyadic research. Journal of
Social and Personal Relationships, 13, 279–294.


文章標籤

estat 發表在 痞客邦 留言(0) 人氣()