以斯帖統計顧問公司

Feb 09 Sun 2014 22:43
加權廣義估計方程式(weighted generalized estimating equation, wGEE)

廣義估計方程式(GEE)常用在臨床研究中類別型的長期追蹤資料分析(Longitudinal data analysis)。然而，由於受試者的某些原因(例如身體產生不良反應(AE)，或是失去連繫(loss of follow-up)等原因)而產生缺失值(missing value)。當缺失值的情形爲完全隨機(missing completely at random)之下，可以直接用GEE來分析；不過，一旦缺失值爲隨機(missing at random)的情形下，直接套用GEE來分析所得到的爲偏誤(biased)的估計。當然，以多重插補法(multiple imputation)來分析是一個可行的方向，另外一個方式即是以加權廣義估計方程式(wGEE)來分析。

加權廣義估計方程式在做法上即是先以logistic regression算出各不同時間點觀測到outcome的機率(propensity score)(以過去時間點的outcome當成是解釋變數，來預測下一時間點的出現機率！)，再以此機率當成是權重(weight)來對一般的廣義估計方程式加權。其想法是以出現機率(propensity score)對每個觀察到的個案加權，達到調整缺失值的目的。目前，常用來進行加權廣義估計方程式的軟體爲SAS, R.

Reference:
G. M. Fitzmaurice , Nan M. Laired and James H. Ware. (2004). Applied Longitudinal Analysis. Wiley.

estat 發表在痞客邦留言(0) 人氣()

個人分類：統計分析方法簡介

▲top

Feb 09 Sun 2014 22:38
竸爭風險存活資料(Competing risks data)分析

存活資料中最常見的分析方法爲Kaplan-Meier, 或是Cox regression，然而上述方法僅適用於單一事件(event)發生率的評估，例如常見的死亡爲感興趣的事件。但在醫學研究中實務上應用時，可能存在有二種以上不同的事件，而感興趣的事件爲其中一種。在這種情形下，出現某種事件可能會掩蓋了其它事件發生的可能性，此即爲竸爭風險。例如，針對白血病病患的研究，進行骨髓移植後，可能發生的事件(event)有二種：白血病復發(relapse)以及移植失敗造成的死亡(death)。在這個例子中，如果我們要探討的是骨髓移植後的復發率，那麼移植失敗造成的死亡(death)即爲復發(relapse)的竸爭風險事件(competing risk event)。

在進行統計分析時，最大的問題在於當我們將復發定爲感興趣事件時，移植失敗的死亡情形該如何處理？此種狀況下，不再使用傳統的存活函數(survival function)來呈現不同時間點所對應的存活率；而是以累積發生函數(cumulative incidence function)，來呈現特定事件在不同時間點發生的可能性。目前較常見用來分析竸爭風險資料的統計軟體爲SAS, R。

Reference:
Pintilie M. Competing Risks: A Practical Perspective. John Wiley & Sons: New York, 2006, 240pp.

estat 發表在痞客邦留言(0) 人氣()

個人分類：統計分析方法簡介

▲top

Feb 09 Sun 2014 22:33
左截切存活資料(Left truncated data)分析

存活分析方法是用於分析從個案進入研究到發生事件的時間(time to event)資料，資料最大的特點在於收集到的資料不完整(incomplete)。而此種資料不完整的現象，常來自於研究上的限制，例如在醫學研究中最常見的右設限(right censored)，是由於研究時間中止，而某些個案尚未發生感興趣的事件；此類個案僅能紀錄到從進入研究到研究截止的時間，而非真正發生事件的時間。除此之外，另一種常見影響資料不完整的情形爲左截切(left truncation)。左截切的情形大多發生於研究者感興趣的是個案的存活年齡，如果個案在研究開始前即死亡，則完全無法被觀察到，也就是說，有別於右設限，左截切僅能觀察到部份的個案資料。

例如，某地區設置了老人安養中心，必須要年滿65歲方能入住，而研究者希望了解入住安養中心，對於存活率的影響。在此例中壽命的資料即爲典型的左截切資料，因爲個案必須要活超過65歲才能進入中心，在之前死亡的個案，則完全無法觀察到，忽略不考慮此現象會造成樣本長度偏誤(length bias)。在統計分析方面，右設限資料是以Kaplan-Meirer estimator來估計其存活率，而左截切資料，則是以Lynden-Bell estimator來估計。目前較常見用來分析左截切存活資料的統計軟體爲R。

Reference:
Klein JP, Moeschberger ML. Survival Anal, 2nd edn. Springer: New York, 2003, 536pp.

estat 發表在痞客邦留言(0) 人氣()

個人分類：統計分析方法簡介

▲top

Feb 05 Wed 2014 18:00
Excel Vlookup函數探討

今天不教大家如何使用Excel Vlookup函數，因為網路上可用資源很多，所以假設大家都會使用該函數，今天只討論使用該函數會遭遇到的問題，以及應對的方法。

情況：明明函數皆設定正確，為何顯示為＃N/A。

模擬：從圖示可以看出，要在文字中比對數字或在數字中比對文字，即便要比對的值看起來都像數字，卻依舊是比對不到的。

解決方法1：使用VALUE函數或TEXT函數強制將要搜尋的值轉成數字或文字。

解決方法2：索引值同時各設定一組相同數字與文字，則比對時不管要搜尋的值是數字或文字皆可比對到。注意：Vlookup函數第4個參數最好設定為FALSE或0（精確比對），未設定時則視為預設值（TRUE或1：模糊比對），比對出的值較無法預期。

(繼續閱讀...)

estat 發表在痞客邦留言(0) 人氣()

個人分類：EXCEL教戰守則

▲top

Feb 05 Wed 2014 16:29
在Excel 中做數值型的次數分配表

資料量不多時，使用這樣的方法也很快喔，不用再開啟SPSS也可以完成，操作方式如圖所示，B欄處預先打好可能的數值分類，方法3的【F2】按鍵是做陣列宣告的動作，【Ctrl+Shift+Enter】則是將公式發佈到方法2的區間儲存格中。

在Excel 中做數值型的次數分配表

estat 發表在痞客邦留言(0) 人氣()

個人分類：EXCEL教戰守則

▲top

Jan 29 Wed 2014 11:45
相關係數的呈現----斯皮爾曼(Spearman)相關或皮爾森(Pearson)相關係數？

在生物醫學的研究中，常需對感興趣的兩個變數來檢驗是否具有相關性，以及如具有相關性，其相關的方向爲正向或是反向相關？例如：體脂肪與血壓，體重與血糖值高低之間的關聯性。而最常被應用來呈現相關性的指標即爲pearson 相關或spearman相關，然而這兩個指標在應用的情形上有所不同。

一般而言，Pearson 相關常用來呈現連續型(continous)變數之間的關聯性，尤其在變數符合常態分配的假設下，最爲精確；而spearman相關則不需符合常態，僅要求變數的資料型態至少爲有序的(ordinal)。另一個選擇上的重點爲在資料具有離群值時(outliers)，以spearman相關來呈現會是較佳的選擇，因爲其不受離群值的影響(這是因爲spearman相關是以排序值(rank)來計算相關係數！)

更深入的來看，pearson相關所衡量的是”線性”相關(linear)，也就是說，主要偵測的是兩變數之間是否有線性相關。所以，當兩變數之間具有相關，但爲非線性時pearson就不是最佳的方法。在這種情形下，spearman更爲合適，例如以下以學生的國文和數學成績之間的相關資料：

pearson correlation data

其資料的散佈狀態見下圖，

pearson correlation

經分別計算相關係數後，可得pearson correlation=0.8829, 而spearman=1。事實上由上圖可看出，資料點間之相關並非線性，所以兩種相關係數值計算結果有很大的不同！所以，spearman相關除了不須常態假設外，在具離群值，或是兩變數間之相關爲非線性時都是適合的使用時機。

(繼續閱讀...)

estat 發表在痞客邦留言(4) 人氣()

個人分類：統計分析方法簡介

▲top

Jan 29 Wed 2014 10:17
SAS常用的統計及數學函數

通常研究者所收集的資料會有缺失值(Missing value)的情況, 在任何統計軟體中, 若不善用函數, 直接以『+-*/ 』符號進行數學運算，會發生無法計算的情形。

以下的例子為1筆資料3個變數, 其中var3為缺失值, 如何利用函數進行數學運算呢? 請參考圖片表格。函數中的參數可以是變數，或直接寫入數字或計算式。

其中, 四捨五入的整數, 小數位數第1位, 小數位數第2位, ...之取法依序為 1., .1, .01....。

data aa;
input var1 var2 var3 ;
cards;

(繼續閱讀...)

estat 發表在痞客邦留言(0) 人氣()

個人分類：SAS程式編輯武功秘笈

▲top

Jan 29 Wed 2014 07:54
自閉症致病成因中研院揭秘

中研院研究揭開自閉症的成因，原來是突變基因導致腦部特定神經迴路異常；研究也證實，治療肺結核的抗生素，可以彌補突變基因帶來的問題，能有效改善患類自閉症小鼠的異常行為，未來可望用於臨床治療。

全世界約有6000多萬人患自閉症，台灣約1萬多人，平均每50名兒童就有一人罹患自閉症，但自閉症的成因不明，海外曾有研究指出自閉症與孕婦、兒童攝入塑化劑有關。

中研院研究員薛一蘋和研究團隊鑽研基因TBR1分子多年，他們在小鼠實驗中發現，專門控制大腦皮質和杏仁核的TBR1一旦突變，會讓小鼠缺少連接左右腦杏仁核的神經迴路「後段前連合」，導致訊息無法正常傳遞。

由於杏仁核掌控社交活動、情緒反應等，TBR1異常的小鼠，出現類似自閉症的行為。

研究也發現，TBR1控制其他15個自閉症致病基因，這群基因利用相似的方式，左右腦部認知和社交行為。

(繼續閱讀...)

estat 發表在痞客邦留言(0) 人氣()

個人分類：醫藥新聞

▲top

Jan 28 Tue 2014 00:37
醫學研究上模式預測能力的比較：一致性統計量(C-statistics)

在醫學研究中，常需要對某種特定疾病 (例如，心血管方面疾病，代謝症候群等)找出其顯著的影響因子，再進一步地以這些影響因子來預測是否有得病。就常用的邏輯斯迴歸(logistic regression)而言，亦即先算出各因子組合而成的危險分數(risk score)，再以危險分數來區分其有得病或是沒得病，此時用來評估其區分精確度的數量，就是時常在文獻中看到的---一致性統計量(C(Concordance)- statistics)。在上述的邏輯斯迴歸例子中，事實上一致性統計量等於 ROC曲線分析中的曲線下面積(AUC)—這是在進行醫學診斷分析時，常會用到的。

不過，一致性統計量的用途更爲廣泛，即使是在存活資料下( 有病與否和時間長短有關；time to event data)所使用的Cox 迴歸模式，也可以算出一致性統計量，來比較所建立的不同Cox 迴歸模式(影響因子選擇不同)，何者的預測能力更佳。在統計軟體部份，目前較常見用來進行一致性統計量分析的軟體爲SAS, R。

Reference

Hajime Uno, Tianxi Cai, Michael J. Pencina, Ralph B. D’Agostino, and LJ Wei. On the C-statistics for evaluating overall adequacy of risk prediction procedures with censored survival data. Statistics in Medicine 2011, 30:1105-16

(繼續閱讀...)

estat 發表在痞客邦留言(0) 人氣()

個人分類：統計分析方法簡介

▲top

Jan 27 Mon 2014 10:06
蒙地卡羅方法(Monte Carlo method)與醫學上的應用

蒙地卡羅方法(Monte Carlo method)是由Metropolis & Ulam於1949年所提出的，一種數值方法，以模擬(simulation)的方式對難以解決的問題求得近似的解答。最早用於數學以及物理學上的應用，但近二十年來，在其它的領域也被廣泛的運用，包含金融，經濟，醫學各方面。在數學上最廣爲應用的即是在解出積分近似值，而蒙地卡羅方法的主要想法爲：(1)先定義出用來模擬的機率密度函數(probability density function, pdf) (2)再以模擬出的資料以統計方法來估計感興趣的未知參數(parameters)。而其背後的理論爲大數法則---亦即只要樣本數夠大，樣本平均會接近母體的平均。

在醫學研究上，最常應用蒙地卡羅方法爲醫學影像處理方面的問題，以蒙地卡羅法來估算影像的平面面積或是立體的體積大小；此外，蒙地卡羅法更應用於核子醫學上，來估計人體吸收輻射的劑量等。在進行蒙地卡羅法時，須自行撰寫程式(SAS, R….)，以完成模擬資料及估計參數的步驟。

Reference:

(繼續閱讀...)

estat 發表在痞客邦留言(0) 人氣()

個人分類：統計分析方法簡介

▲top

以斯帖統計顧問公司

加權廣義估計方程式(weighted generalized estimating equation, wGEE)

竸爭風險存活資料(Competing risks data)分析

左截切存活資料(Left truncated data)分析

Excel Vlookup函數探討

在Excel 中做數值型的次數分配表

相關係數的呈現----斯皮爾曼(Spearman)相關或皮爾森(Pearson)相關係數？

SAS常用的統計及數學函數

自閉症致病成因中研院揭秘

醫學研究上模式預測能力的比較：一致性統計量(C-statistics)

蒙地卡羅方法(Monte Carlo method)與醫學上的應用

熱門文章

文章分類

最新文章

最新留言

文章精選

參觀人氣

以斯帖統計部落格