目前日期文章:201402 (11)

瀏覽方式: 標題列表 簡短摘要


在醫學研究上,針對感興趣的結果變項(outcome)去找出影響因子常會使用到線性迴歸模式(linear regression model), 邏輯斯迴歸模式(logistic regression model)等方法,而其目的除了要找出顯著的影響因子外,有時還須評估模式的預測能力。例如:研究者欲找出影響代謝症候群的因素,所以建立一邏輯斯迴歸模式,而模式一旦建立後,如有一新個案的資料,代入影響因子的值,即可預測其有代謝症候群的可能性有多高。而交叉驗證(Cross-Validation)可以用來檢視模式預測能力的好壞。


常見的交叉驗證方法有二折交叉驗證(2-fold cross-validation),十折交叉驗證(10-fold cross-validation),而以十折交叉驗證較常被運用。其想法即爲將原始的資料先分割成十等份,取其中九等份(training data)來進行建模分析(model building),而留下的一等份則爲驗證資料(validation data);也就是說,用來驗證模式預測的精確度。以邏輯斯迴歸來說,即是進行十次的建模,以及驗證過程,再將十次結果的精準度(accuracy)取平均,最後再呈現平均的精準度。一般而言,在分析軟體方面,R提供了k-fold cross validation的套件,可以直接套用進行分析。

Reference:
Kohavi, Ron (1995). "A study of cross-validation and bootstrap for accuracy estimation and model selection". Proceedings of the Fourteenth International Joint Conference on Artificial Intelligence 2 (12): 1137–1143.


文章標籤

estat 發表在 痞客邦 留言(0) 人氣()

 

 『你們作研究的都是「骯髒齷齪」的!』

   

      站在某大醫院的健檢室,在一排黑鴉鴉的受檢人群中,一個公安事件受害者毫不掩飾內心的憤怒向我抱怨著。我沒有退後三步,只是抱著問卷無語地聽她繼續發洩,「你們把我們當成什麼?!實驗室裡的白老鼠?從我們身上得到你們想要的資料,也不管我們的感受,轉身就走,然後一頭栽進你們的升等,栽進你們的論文發表!你們作研究的通通都一樣!都是『骯髒齷齪』的!」

 

   政府的疏失與廠商的貪婪負了他們,連我們這些自命清高的學術人也被視為共犯,「御用學者」成了我們的另一個污名。

 

    那段日子,我常常要抱著問卷與手寫板走進醫院,甚至走入受害者的家庭,進行挨家挨戶的家庭訪視,只為了收齊事件發生時的部份訊息與之後的健康狀況資料。脖子掛著某某大單位的識別證,走在醫院的大廳裡,心情總是沉甸甸的,胸口一陣緊悶,而跨出去的每一個步履總顯得有些遲疑。可是,有時卻有一股不知打哪來的熱情,彷彿岸邊的浪拍打上來, 將心中隱忍著的為難捲入海中。

 

統計人的心靈小棧

文章標籤

estat 發表在 痞客邦 留言(0) 人氣()

 

在臨床試驗中,多中心臨床試驗(Multicenter trial)爲較常採取的方式,其原因在於相較於單一中心(single center)的收案,多中心的收案其個案來源爲更廣的範圍,樣本更具有代表性。但同時,由於個案並非來自同一中心,在統計分析時就面臨到了不同中心可能有異質性(heterogeneity)的問題,在處理分析時變得更加地複雜。

正因爲如此,有學者建議 (Chakravorti and Grizzle, 1975)不同中心的效應(center effect)應視爲隨機效果(random effect)較爲合理;也就是說,將不同中心所得到的資料設定爲異質,再以混合模式(mixed model)來分析,得到最後的總治療效果(overall treatment effect)。除此之外,通常還需要呈現各中心所收集個案的基本資料,起點測量值(baseline value),以及組別間的平均差異值(difference in mean)。在統計圖形的部份,則需將各中心所分別計算出的治療效果放在同一張圖中以做比較(標示出兩組的平均差異值,以及其95% C.I.),才能看出是否有某一中心其結果較爲極端,需要加以探討。

 

 

Reference:
U.S. FDA Guideline for the Format and Content of the Clinical and Statistical Sections of an Application, 1988

 


文章標籤

estat 發表在 痞客邦 留言(0) 人氣()

 

在存活分析中, 除了要比較不同組之間(例如不同的治療方式或是否有用藥)存活率是否有顯著的差異之外,通常還需去了解危險因子(risk factors)爲何。這時就要進行迴歸分析(regression analysis),而對於存活資料而言,最常用的模式爲Cox比例風險模式(cox proportional hazard model)。不過,使用Cox比例風險模式時,有一基本假設必須要符合,即等比例風險假設(Proportional hazard assumption, PH assumption);也就是說,針對某一危險因子而言其風險比,不能隨著時間而有所改變,必須要固定。所以當此假設違反時,將Cox比例風險模式做一些修正是必要的,其中最重要且常用的爲分層cox 迴歸模式(Stratified cox regression)


所謂的分層cox 迴歸模式即是將研究者較不感興趣,或較不重要的干擾因子(confounding factors)(而且這些因子並不符合等比例風險假設),當成分層變數,在不同層的基線危險函數(baseline hazard function)是不同的,而其它在模式中的危險因子,皆爲等比例風險。雖然,分層cox 迴歸模式在違反等比例風險假設時,仍可以進適當的分析,但是其缺點在於分層的層數若太多,統計檢定力(statistical power)會降低。目前較常見的統計軟體,例如,SAS, R, STAT, SPSS等皆可用來進行分層cox 迴歸模式分析。


Reference:
J. Klein and M. Moeschberger, Survival Analysis: Techniques for Censored and Truncated Data. Springer, second ed., 2003.


文章標籤

estat 發表在 痞客邦 留言(0) 人氣()

 

每年910日為「世界自殺防治日」,全國自殺防治中心的最新自殺防治認知抽樣調查發現,全國15歲以上民眾,其中7.3%有情緒困擾(134萬人),曾因深受情緒困擾而動過輕生的念頭有52.4%,但是,實際求助醫療診所的比例卻不到25%,推測原因可能與社會大眾的偏見和誤解相關

另外,美國一項研究發表於「身心醫學研究期刊」(Journal of Psychosomatic Research)結果發現,經常壓抑負面情緒的人,罹患癌症機率比起時常將內心情緒表達出來的人高出70%,早死機率也較高。此研究為美國哈佛大學(Harvard University)與羅徹斯特大學(Rochester University)1996年針對729名平均年齡約44歲的人為研究對象,進行問卷訪談,了解其壓抑情緒的程度。而於12年後實施第二次調查時,受訪者中已有111死亡,研究團隊調查後發現,大部分的人皆死於癌症或心臟疾病,且死亡率較高的為平時較壓抑負面情緒的受訪者。研究團隊發現,較會壓抑負面情緒的族群,早死機率比起較表達情緒的族群高出35%,罹患心臟病的風險高出47%,而罹患癌症的機率更是高出70%

目前還無法瞭解常壓抑情緒的族群早死機率較高的原因,研究人員推測,可能是因該族群會利用吸菸、酗酒、吃高熱量或不營養的食物等不健康的方式抒發負面情緒,導致身體產生不好的影響;另一個原因可能是因該族群的人時常將負面情緒及想法壓抑在心裡,而擾亂自身體內的荷爾蒙平衡狀態,進而對身體細胞造成傷害。

資料來源:

1. Benjamin P. Chapman, Kevin Fiscella, Ichiro Kawachi, Paul Duberstein, Peter Muennig. Emotion suppression and mortality risk over a 12-year follow-up. Journal of Psychosomatic Research, 2013. DOI:10.1016/j.jpsychores.2013.07.014.

文章標籤

estat 發表在 痞客邦 留言(0) 人氣()


SAS的資料轉置依資料的結構與轉置的目的不同, 語法略有不同, 以下介紹Transpose資料直轉橫的簡單語法。


[程式一] 是健保資料庫常見的資料型態, 同一個人在不同時間有好幾筆就醫記錄, 在資料檔中AA中包含ID(身份證號), SEX, AGE, FEE(費用), IN_DATE(住院日期)等欄位。


[ 程式一]

data aa;
input id $ sex $ age fee in_date yymmdd10.;
format in_date yymmdd10.;
cards;

文章標籤

estat 發表在 痞客邦 留言(0) 人氣()


廣義估計方程式(GEE)常用在臨床研究中類別型的長期追蹤資料分析(Longitudinal data analysis)。然而,由於受試者的某些原因(例如身體產生不良反應(AE),或是失去連繫(loss of follow-up)等原因)而產生缺失值(missing value)。當缺失值的情形爲完全隨機(missing completely at random)之下,可以直接用GEE來分析;不過,一旦缺失值爲隨機(missing at random)的情形下,直接套用GEE來分析所得到的爲偏誤(biased)的估計。當然,以多重插補法(multiple imputation)來分析是一個可行的方向,另外一個方式即是以加權廣義估計方程式(wGEE)來分析。

加權廣義估計方程式在做法上即是先以logistic regression算出各不同時間點觀測到outcome的機率(propensity score)(以過去時間點的outcome當成是解釋變數,來預測下一時間點的出現機率!),再以此機率當成是權重(weight)來對一般的廣義估計方程式加權。其想法是以出現機率(propensity score)對每個觀察到的個案加權,達到調整缺失值的目的。目前,常用來進行加權廣義估計方程式的軟體爲SAS, R.


Reference:
G. M. Fitzmaurice , Nan M. Laired and James H. Ware. (2004). Applied Longitudinal Analysis. Wiley.


文章標籤

estat 發表在 痞客邦 留言(0) 人氣()


存活資料中最常見的分析方法爲Kaplan-Meier, 或是Cox regression,然而上述方法僅適用於單一事件(event)發生率的評估,例如常見的死亡爲感興趣的事件。但在醫學研究中實務上應用時,可能存在有二種以上不同的事件,而感興趣的事件爲其中一種。在這種情形下,出現某種事件可能會掩蓋了其它事件發生的可能性,此即爲竸爭風險。例如,針對白血病病患的研究,進行骨髓移植後,可能發生的事件(event)有二種:白血病復發(relapse)以及移植失敗造成的死亡(death)。在這個例子中,如果我們要探討的是骨髓移植後的復發率,那麼移植失敗造成的死亡(death)即爲復發(relapse)的竸爭風險事件(competing risk event)


在進行統計分析時,最大的問題在於當我們將復發定爲感興趣事件時,移植失敗的死亡情形該如何處理?此種狀況下,不再使用傳統的存活函數(survival function)來呈現不同時間點所對應的存活率;而是以累積發生函數(cumulative incidence function),來呈現特定事件在不同時間點發生的可能性。目前較常見用來分析竸爭風險資料的統計軟體爲SAS, R


Reference:
Pintilie M. Competing Risks: A Practical Perspective. John Wiley & Sons: New York, 2006, 240pp.


文章標籤

estat 發表在 痞客邦 留言(0) 人氣()


存活分析方法是用於分析從個案進入研究到發生事件的時間(time to event)資料,資料最大的特點在於收集到的資料不完整(incomplete)。而此種資料不完整的現象,常來自於研究上的限制,例如在醫學研究中最常見的右設限(right censored),是由於研究時間中止,而某些個案尚未發生感興趣的事件;此類個案僅能紀錄到從進入研究到研究截止的時間,而非真正發生事件的時間。除此之外,另一種常見影響資料不完整的情形爲左截切(left truncation)。左截切的情形大多發生於研究者感興趣的是個案的存活年齡,如果個案在研究開始前即死亡,則完全無法被觀察到,也就是說,有別於右設限,左截切僅能觀察到部份的個案資料。

例如,某地區設置了老人安養中心,必須要年滿65歲方能入住,而研究者希望了解入住安養中心,對於存活率的影響。在此例中壽命的資料即爲典型的左截切資料,因爲個案必須要活超過65歲才能進入中心,在之前死亡的個案,則完全無法觀察到,忽略不考慮此現象會造成樣本長度偏誤(length bias)。在統計分析方面,右設限資料是以Kaplan-Meirer estimator來估計其存活率,而左截切資料,則是以Lynden-Bell estimator來估計。目前較常見用來分析左截切存活資料的統計軟體爲R


Reference:
Klein JP, Moeschberger ML. Survival Anal, 2nd edn. Springer: New York, 2003, 536pp.


文章標籤

estat 發表在 痞客邦 留言(0) 人氣()

 

今天不教大家如何使用Excel Vlookup函數,因為網路上可用資源很多,所以假設大家都會使用該函數,今天只討論使用該函數會遭遇到的問題,以及應對的方法。

 

情況:明明函數皆設定正確,為何顯示為#N/A

模擬:從圖示可以看出,要在文字中比對數字或在數字中比對文字,即便要比對的值看起來都像數字,卻依舊是比對不到的。

 

解決方法1:使用VALUE函數或TEXT函數強制將要搜尋的值轉成數字或文字。

 

解決方法2:索引值同時各設定一組相同數字與文字,則比對時不管要搜尋的值是數字或文字皆可比對到。注意:Vlookup函數第4個參數最好設定為FALSE0(精確比對),未設定時則視為預設值(TRUE1:模糊比對),比對出的值較無法預期。

 

文章標籤

estat 發表在 痞客邦 留言(0) 人氣()

 

資料量不多時,使用這樣的方法也很快喔,不用再開啟SPSS也可以完成,操作方式如圖所示,B欄處預先打好可能的數值分類,方法3的【F2】按鍵是做陣列宣告的動作,【Ctrl+Shift+Enter】則是將公式發佈到方法2的區間儲存格中。

 

在Excel 中做數值型的次數分配表  


文章標籤

estat 發表在 痞客邦 留言(0) 人氣()