以斯帖統計顧問公司

3月 12 週三 201415:02
R軟體-類別資料分析(一)

卡方檢定(Chi-Square test)：

estat 發表在痞客邦留言(0) 人氣(10,219)

個人分類：R與統計分析

3月 12 週三 201414:48
Excel軟體-常見函數(1)敘述統計

函數說明:
>>>>平均值:AVERAGE(A2:A30)
>>>>中位數:MEDIAN(A2:A30)
>>>>眾數: MODE(A2:A30)
>>>>標準差:STDEV(A2:A30)
>>>>變異數:VAR(A2:A30)
>>>>峰度:KURT(A2:A30)
>>>>偏態: SKEW(A2:A30)
>>>>最小值:MIN(A2:A30)
>>>>最大值:MAX(A2:A30)
>>>>總和: SUM(A2:A30)
>>>>個數:COUNT(A2:A30)
>>>>第K個最大值:LARGE(A2:A30,K)
>>>>第K個最小值:SMALL(A2:A30,K)
>>>>信賴區間: CONFIDENCE(alpha,Stadard_dev,sample size)
信賴區間下限: AVERAGE(A2:A30)- CONFIDENCE(alpha,Stadard_dev,sample size)
信賴區間上限: AVERAGE(A2:A30)+ CONFIDENCE(alpha,Stadard_dev,sample size)
參考資料：
沈明來(2007)。生物統計學入門(第五版)。台北：九州圖書文物有限公司。

(繼續閱讀...)

estat 發表在痞客邦留言(0) 人氣(1,596)

個人分類：EXCEL教戰守則

▲top

3月 05 週三 201411:20
淺談決策樹(Decision Tree)統計分析方法

　　在資料探勘(Data mining)領域中，決策樹(Decision Tree)和類神經網路(Artificial Neural Network)，都是常見的方法。隨著電腦資訊科技的發展，大型資料的分析已成了必然的趨勢，而資料探勘即是將大型資料中，較具有代表性之變數萃取出的技術。例如在醫學研究上，對某種特定的疾病(糖尿病，代謝症候群等)找出可以前期篩檢分類，或是預測的因子時，就常以決策樹的方法來進行。如同類神經網路方法，在進行分析的過程中，通常也會先以建模資料建立模式，再將驗證資料代入建立完成的模式以確認其預測力高低。而決策樹較爲不同之處在於以圖像化來呈現結果，即使不了解背後理論，仍可解讀及下判斷。
　常見的決策樹分析方法有兩種：CART(Classification And Regression Tree)及CHAID(Chi-squared Automatic Interaction Detection)，其最大的差異在於CART可以處理連續或是類別型的變項，而CHAID僅能處理類別變項；所以如果連續型變項要使用CHAID方法，要先轉成類別型資料。進行決策樹分析要注意的是，當樣本數太少，類別太多時，不易正確分類。在實際執行上，統計分析軟體大多都有可進行決策樹分析的套件，如常見的SAS, R, SPSS等.
Reference:
Hastie, T., Tibshirani, R., Friedman, J. H. (2001). The elements of statistical learning : Data mining, inference, and prediction. New York: Springer .
Rokach, Lior; Maimon, O. (2008). Data mining with decision trees: theory and applications. World Scientific Pub Co Inc.

(繼續閱讀...)

estat 發表在痞客邦留言(2) 人氣(9,168)

個人分類：統計分析方法簡介

▲top

2月 26 週三 201409:28
交叉驗證(Cross-Validation)在醫學研究上的應用

在醫學研究上，針對感興趣的結果變項(outcome)去找出影響因子常會使用到線性迴歸模式(linear regression model), 邏輯斯迴歸模式(logistic regression model)等方法，而其目的除了要找出顯著的影響因子外，有時還須評估模式的預測能力。例如：研究者欲找出影響代謝症候群的因素，所以建立一邏輯斯迴歸模式，而模式一旦建立後，如有一新個案的資料，代入影響因子的值，即可預測其有代謝症候群的可能性有多高。而交叉驗證(Cross-Validation)可以用來檢視模式預測能力的好壞。
常見的交叉驗證方法有二折交叉驗證(2-fold cross-validation)，十折交叉驗證(10-fold cross-validation)，而以十折交叉驗證較常被運用。其想法即爲將原始的資料先分割成十等份，取其中九等份(training data)來進行建模分析(model building)，而留下的一等份則爲驗證資料(validation data)；也就是說，用來驗證模式預測的精確度。以邏輯斯迴歸來說，即是進行十次的建模，以及驗證過程，再將十次結果的精準度(accuracy)取平均，最後再呈現平均的精準度。一般而言，在分析軟體方面，R提供了k-fold cross validation的套件，可以直接套用進行分析。
Reference:
Kohavi, Ron (1995). "A study of cross-validation and bootstrap for accuracy estimation and model selection". Proceedings of the Fourteenth International Joint Conference on Artificial Intelligence 2 (12): 1137–1143.

(繼續閱讀...)

estat 發表在痞客邦留言(0) 人氣(5,268)

個人分類：淺談研究設計

▲top

2月 17 週一 201416:58
你們作研究的都是『骯髒齷齪』的！

『你們作研究的都是「骯髒齷齪」的！』

(繼續閱讀...)

estat 發表在痞客邦留言(0) 人氣(280)

個人分類：統計人的心靈小棧

▲top

2月 17 週一 201411:48
多中心臨床試驗之分析(Multicenter trial)

在臨床試驗中，多中心臨床試驗(Multicenter trial)爲較常採取的方式，其原因在於相較於單一中心(single center)的收案，多中心的收案其個案來源爲更廣的範圍，樣本更具有代表性。但同時，由於個案並非來自同一中心，在統計分析時就面臨到了不同中心可能有異質性(heterogeneity)的問題，在處理分析時變得更加地複雜。
正因爲如此，有學者建議 (Chakravorti and Grizzle, 1975)不同中心的效應(center effect)應視爲隨機效果(random effect)較爲合理；也就是說，將不同中心所得到的資料設定爲異質，再以混合模式(mixed model)來分析，得到最後的總治療效果(overall treatment effect)。除此之外，通常還需要呈現各中心所收集個案的基本資料，起點測量值(baseline value)，以及組別間的平均差異值(difference in mean)。在統計圖形的部份，則需將各中心所分別計算出的治療效果放在同一張圖中以做比較(標示出兩組的平均差異值，以及其95% C.I.)，才能看出是否有某一中心其結果較爲極端，需要加以探討。

(繼續閱讀...)

estat 發表在痞客邦留言(2) 人氣(7,150)

個人分類：淺談研究設計

▲top

2月 17 週一 201411:39
分層cox 迴歸模式(Stratified cox regression)

在存活分析中, 除了要比較不同組之間(例如不同的治療方式或是否有用藥)存活率是否有顯著的差異之外，通常還需去了解危險因子(risk factors)爲何。這時就要進行迴歸分析(regression analysis)，而對於存活資料而言，最常用的模式爲Cox比例風險模式(cox proportional hazard model)。不過，使用Cox比例風險模式時，有一基本假設必須要符合，即等比例風險假設(Proportional hazard assumption, PH assumption)；也就是說，針對某一危險因子而言其風險比，不能隨著時間而有所改變，必須要固定。所以當此假設違反時，將Cox比例風險模式做一些修正是必要的，其中最重要且常用的爲分層cox 迴歸模式(Stratified cox regression)。

(繼續閱讀...)

estat 發表在痞客邦留言(0) 人氣(15,949)

個人分類：統計分析方法簡介

▲top

2月 17 週一 201411:21
研究：常壓抑負面情緒罹癌機率較高

每年9月10日為「世界自殺防治日」，全國自殺防治中心的最新自殺防治認知抽樣調查發現，全國15歲以上民眾，其中7.3％有情緒困擾(約134萬人)，曾因深受情緒困擾而動過輕生的念頭有52.4％，但是，實際求助醫療診所的比例卻不到25％，推測原因可能與社會大眾的偏見和誤解相關。
另外，美國一項研究發表於「身心醫學研究期刊」(Journal of Psychosomatic Research)結果發現，經常壓抑負面情緒的人，罹患癌症機率比起時常將內心情緒表達出來的人高出70%，早死機率也較高。此研究為美國哈佛大學(Harvard University)與羅徹斯特大學(Rochester University)於1996年針對729名平均年齡約44歲的人為研究對象，進行問卷訪談，了解其壓抑情緒的程度。而於12年後實施第二次調查時，受訪者中已有111人死亡，研究團隊調查後發現，大部分的人皆死於癌症或心臟疾病，且死亡率較高的為平時較壓抑負面情緒的受訪者。研究團隊發現，較會壓抑負面情緒的族群，早死機率比起較表達情緒的族群高出35%，罹患心臟病的風險高出47%，而罹患癌症的機率更是高出70%。
目前還無法瞭解常壓抑情緒的族群早死機率較高的原因，研究人員推測，可能是因該族群會利用吸菸、酗酒、吃高熱量或不營養的食物等不健康的方式抒發負面情緒，導致身體產生不好的影響；另一個原因可能是因該族群的人時常將負面情緒及想法壓抑在心裡，而擾亂自身體內的荷爾蒙平衡狀態，進而對身體細胞造成傷害。
資料來源:
1. Benjamin P. Chapman, Kevin Fiscella, Ichiro Kawachi, Paul Duberstein, Peter Muennig. Emotion suppression and mortality risk over a 12-year follow-up. Journal of Psychosomatic Research, 2013. DOI:10.1016/j.jpsychores.2013.07.014.
2. 全國自殺防自中心 http://www.tspc.doh.gov.tw/。

(繼續閱讀...)

estat 發表在痞客邦留言(3) 人氣(486)

個人分類：醫藥新聞

▲top

2月 09 週日 201422:51
SAS中的資料轉置(Transpose)- I

SAS的資料轉置依資料的結構與轉置的目的不同, 語法略有不同, 以下介紹Transpose資料直轉橫的簡單語法。
[程式一] 是健保資料庫常見的資料型態, 同一個人在不同時間有好幾筆就醫記錄, 在資料檔中AA中包含ID(身份證號), SEX, AGE, FEE(費用), IN_DATE(住院日期)等欄位。

[ 程式一]
data aa;
input id $ sex $ age fee in_date yymmdd10.;
format in_date yymmdd10.;
cards;
A01 F 60 1245 2001-03-04
A01 F 60 1865 2001-04-12
A01 F 60 2973 2001-05-11
A01 F 60 536 2001-07-23
A02 M 23 657 2003-02-01
A02 M 23 2160 2003-06-12
;
run;
若研究者想依IN_DATE(住院日期)將每個人的資料直轉橫, 並保留個人基本資料, 可利用[ 程式二]完成。 (見結果一)
1. 首先宣告執行TRANSPOSE程序, 資料來源為AA；
2. 其次將轉置後結果存入檔案BB中(OUT=BB);
3. 再指定轉置後的住院日期為以DATE開頭的流水號型式命名的欄位名稱(PREFIX=DATE);
4. 以Name=transposed_by 標示被轉置之欄位名稱(可任意書寫), 若不執行此項, 通常預設欄位名稱為 _NAME_;
5. 以VAR指定轉置的欄位, 若不指定, SAS會依程式設定, 自行判斷, 在此例中, 若不指定VAR, SAS會將FEE(費用), IN_DATE(住院日期)指定為被轉置的欄位(見結果二);
6. 以BY指定轉置的依據, 例如此例之基本資料ID(身份證號), SEX, AGE 。即轉置的條件是依每一個人的基本資料去轉, 若不指定, 會將所有資料橫向轉置成一筆。(見結果三)

[ 程式二]
proc transpose data=aa
out=bb
prefix=date
name=transposed_by ;
var in_date;
by id sex age;
run;

[ 結果]

(繼續閱讀...)

estat 發表在痞客邦留言(0) 人氣(18,522)

個人分類：SAS程式編輯武功秘笈

▲top

2月 09 週日 201422:43
加權廣義估計方程式(weighted generalized estimating equation, wGEE)

廣義估計方程式(GEE)常用在臨床研究中類別型的長期追蹤資料分析(Longitudinal data analysis)。然而，由於受試者的某些原因(例如身體產生不良反應(AE)，或是失去連繫(loss of follow-up)等原因)而產生缺失值(missing value)。當缺失值的情形爲完全隨機(missing completely at random)之下，可以直接用GEE來分析；不過，一旦缺失值爲隨機(missing at random)的情形下，直接套用GEE來分析所得到的爲偏誤(biased)的估計。當然，以多重插補法(multiple imputation)來分析是一個可行的方向，另外一個方式即是以加權廣義估計方程式(wGEE)來分析。
加權廣義估計方程式在做法上即是先以logistic regression算出各不同時間點觀測到outcome的機率(propensity score)(以過去時間點的outcome當成是解釋變數，來預測下一時間點的出現機率！)，再以此機率當成是權重(weight)來對一般的廣義估計方程式加權。其想法是以出現機率(propensity score)對每個觀察到的個案加權，達到調整缺失值的目的。目前，常用來進行加權廣義估計方程式的軟體爲SAS, R.
Reference:
G. M. Fitzmaurice , Nan M. Laired and James H. Ware. (2004). Applied Longitudinal Analysis. Wiley.

(繼續閱讀...)

estat 發表在痞客邦留言(0) 人氣(1,922)

個人分類：統計分析方法簡介

▲top

«1 ...678 13 »

以斯帖官網

文章分類

留言板

文章精選

參觀人氣

本日人氣：
累積人氣：

以斯帖統計顧問公司

R軟體-類別資料分析(一)

Excel軟體-常見函數(1)敘述統計

淺談決策樹(Decision Tree)統計分析方法

交叉驗證(Cross-Validation)在醫學研究上的應用

你們作研究的都是『骯髒齷齪』的！

多中心臨床試驗之分析(Multicenter trial)

分層cox 迴歸模式(Stratified cox regression)

研究：常壓抑負面情緒罹癌機率較高

SAS中的資料轉置(Transpose)- I

加權廣義估計方程式(weighted generalized estimating equation, wGEE)

以斯帖官網

推薦熱門文章

熱門文章

文章分類

最新文章

留言板

最新留言

文章精選

參觀人氣

以斯帖統計LINE

以斯帖統計LINE