Logistic Regression與線性迴歸最大的不同是依變項性質的不同,使得兩者在參數估計與假設上也有所不同,前者的結果變項(outcome)為類別型資料(categorical data),後者為數值型資料(numeric data)。Logistic Regression分析的假定:觀察值樣本在依變項上的機率分配呈S型分佈,此分佈又稱Logistic分配。
Logistic Regression最常應用在流行病學的Case-Control study,常見的指標是勝算比(Odds Ratio),其意義為得病的人有暴露與未暴露的比值(勝算; odd)相對於未得病的人有暴露與未暴露的比值,該值=1表示疾病與暴露間的相關性不高。由exp(β)可求得Odds Ratio,β為Logistic Regression的估計參數。
SAS的程式如下:以proc logistic程序分析,dependent為結果變項, 通常1為有病,0為沒病,Group為解釋變數,在此為組別,通常為有暴露(EXPOSURE)或沒暴露(NON- EXPOSURE)於特定風險的兩個組別。descending為設定dependent=0為參考組,RISKLIMITS為列出95%信賴區間。以SAS的ODS功能(Output Delivery System)將parameterestimates(參數估計值)存成SAS檔,包含p value也一起存出來,存成檔案pp;以ODS 將oddsratio及其95%信賴區間存出,存成檔案qq。
最後利用merge指令將參數估計值與oddsratio的結果合併成一個檔案,即可直接整理至發表要用的表格上,如表格所示。
[程式一]
PROC LOGISTIC DATA=mydata DESCENDING;
model DEPENDENT=Group /selection=none RISKLIMITS;
ods output parameterestimates=pp;
ods output oddsratios=qq;
proc print data=pp;
proc print data=qq;
run;
[程式二]
proc sort data=pp;
by Effect;
proc sort data=qq;
by Effect;
data rr;
merge pp(in=a) qq(in=b rename=(Variable=Effect)));
by Effect;
if a=b;
proc print data=rr;
run;
[結果]
留言列表