SAS中的Logistic regression program @ 以斯帖統計顧問公司

Logistic Regression與線性迴歸最大的不同是依變項性質的不同，使得兩者在參數估計與假設上也有所不同，前者的結果變項(outcome)為類別型資料(categorical data)，後者為數值型資料(numeric data)。Logistic Regression分析的假定：觀察值樣本在依變項上的機率分配呈S型分佈，此分佈又稱Logistic分配。

Logistic Regression最常應用在流行病學的Case-Control study，常見的指標是勝算比(Odds Ratio)，其意義為得病的人有暴露與未暴露的比值(勝算; odd)相對於未得病的人有暴露與未暴露的比值，該值=1表示疾病與暴露間的相關性不高。由exp(β)可求得Odds Ratio，β為Logistic Regression的估計參數。

SAS的程式如下：以proc logistic程序分析，dependent為結果變項, 通常1為有病，0為沒病，Group為解釋變數，在此為組別，通常為有暴露(EXPOSURE)或沒暴露(NON- EXPOSURE)於特定風險的兩個組別。descending為設定dependent=0為參考組，RISKLIMITS為列出95%信賴區間。以SAS的ODS功能(Output Delivery System)將parameterestimates(參數估計值)存成SAS檔，包含p value也一起存出來，存成檔案pp；以ODS 將oddsratio及其95%信賴區間存出，存成檔案qq。

最後利用merge指令將參數估計值與oddsratio的結果合併成一個檔案，即可直接整理至發表要用的表格上，如表格所示。

[程式一]
PROC LOGISTIC DATA=mydata DESCENDING;
model DEPENDENT=Group /selection=none RISKLIMITS;
ods output parameterestimates=pp;
ods output oddsratios=qq;
proc print data=pp;
proc print data=qq;
run;

[程式二]
proc sort data=pp;
by Effect;
proc sort data=qq;
by Effect;
data rr;
merge pp(in=a) qq(in=b rename=(Variable=Effect)));
by Effect;
if a=b;
proc print data=rr;
run;