沒有自動替代文字。


     

由以斯帖統計顧問公司開設的『應用生物醫學統計研習營』已有多年歷史,藉由統計觀念的釐清以及統計軟體的實務操作,讓您頓時豁然開朗,閱讀SCI期刊論文也不再困難重重,擺脫學習統計學的包袱,重拾信心。春季班正開放招生中:

 

春季班

 

初階課程

2018/04/01B1.基礎醫學統計方法(描述性統計、相關與迴歸分析)

文章標籤

estat 發表在 痞客邦 留言(0) 人氣()

 

 健保資料分析時,會遇到循環性的資料處理步驟,以1:1個案配對(individual matching)的資料處理過程為例,1個暴露個案(cohort study exposure)1個病例個案(case-control study 中的 case)依特定條件配到1個對照個案,此時要將該對照個案從對照組的抽樣母體中扣除,再繼續找下一個exposurecase的對照個案,直到對照組的個案建立完成,因此是由巨集指令(Macro Language)的迴圈進行此連續動作。而扣除的方式是以身份證號(ID)以及生日(ID_birthday)做為關鍵變項(key variable),將被抽中者從抽樣母體中扣除,因此在對照組的抽樣母體中再也找不到該位病人的資料,因此不會被之後的exposurecase再抽中,以致相同的對照個案有重覆出現的情形。

 

如果在過程中,其中的一個exposurecase找不到對照個案,就毋需從對照組的抽樣母體中做任何排除的動作,但必須有程式作為判斷機制,若未抽中對照組,下一個抽樣步驟所使用的對照組之抽樣母體與前一個步驟的抽樣母體相同。但問題是,要如何判斷該進行扣除的動作,還是下一個步驟延用前一步驟的對照組抽樣母體?沒有抽中符合條件的對照個案,log視窗(日誌)中將出現類似以下的訊息:


NOTE: There were 55759 observations read from the data set F.CONTROL_1.

NOTE: The data set WORK.CONTROL_1 has 0 observations and 12 variables.

 

f.control_1為某retrospective cohort study(回溯性世代研究)的第一個exposure之對照組抽樣母體,依據特定編號的exposure的配對條件進行資料截取後,發現截取出來的筆數是0筆,檔名是work.control_1

 

文章標籤

estat 發表在 痞客邦 留言(0) 人氣()


以下介紹的範例取材自已絕版的『SAS 程式技巧』(作者:陳坤芳; 1996 6-12~6-13)中的一段程式應用,主要的指令為RETAIN搭配FIRST.VARIABLE、LAST.VARIABLE,所要執行的任務為『分組資料的加總』,在之前的部落文─『SAS中的描述性統計: PROC MEANS指令曾提到以描述性統計的語法:PROC MEANS計算分組的描述性統計量,有興趣,可以比較兩種方法的差異。

【程式一】中,建立了9筆資料,prodid為產品編號,sales為銷售額


【程式一】

estat 發表在 痞客邦 留言(0) 人氣()

 

過去10年,學術界一窩蜂地以健保資料庫作為『省錢、省時、省力』的研究方法,由於過於浮濫的發表,有些學校已嚴格限制健保資料庫作為升等的題材,究竟這麼珍貴的資料庫,何以成為被學界所垢病的次級資料(secondary data),究竟這個領域的研究限制是什麼?而它獨步全球的優勢又是什麼?

 

在還未有健保資料庫之前,醫藥研究不外乎臨床試驗、在臨床或社區收問卷、收檢體、環境採樣等等,可用來作為分析的大型資料庫,主要是健保開辦前的勞保門診與勞保住院資料、癌症登記檔、死亡檔,也有研究採用健檢診所的會員資料。綜觀以上的資料,有其優勢,但研究限制也不少,樣本的代表性是主要的問題。

 

但健保資料庫經由國家衛生研究院的整理並釋出後,全國性的抽樣資料,或全國性的特定族群資料,可依循合法的申請管道取得,這些代表全國性的資料,不僅量大,亦可解決流行病學上的選樣偏差問題,由於完整記錄病人的就醫記錄,包括疾病診斷代碼以及醫令代碼,儼然是最佳的藥物流行病學的分析材料,除非病人自費就醫。由於是全國性的資料,在國際間自有一定的學術價值,但學者抨擊之處所為何來?

 

健保資料庫最大的特徵是病人就醫的費用申報檔,無論病因是否正確,為了通過健保費用申報的相關規定,有部份代碼並非確實申報,甚至與疾病本身無關;有些病人還在檢查階段、尚未確診,卻以疑似病因登錄。過去賴美淑教授依據健保資料庫進行糖尿病診斷的正確性(validation)研究,發現當每一筆診斷皆納入研究,正確性約七成,若將前2次診斷當作是因檢查而登錄,留下了3次以上的就醫記錄,正確性提高至八成以上,若以是否使用降血糖藥作為判斷依據,正確性提高至九成以上。因此作了一些定義後,正確性將逐步提高,但不可否認的,誤歸類(misclassification)的比例仍高達一成。有些重大疾病可藉由串聯重大傷病檔以作為確認,但早期重大傷病卡的申請率非100%,卻造成研究個案數的低估。此外,在存活分析研究中,死亡的個案,除了因重大傷病死亡、院內死亡,其他院外之種種死因無法被記錄,在分析上是一大限制。

 

而一般研究在資料庫中所引用的人口學變項,不外乎性別、年齡、以投保單位所在地代表工作與生活地區的都市化程度、以投保薪資代表收入高低、有無工作、是否低收入戶等,大家很快就可提出這些項目在資料庫中的問題所在,毋庸贅述。更何況比前述更重要的生活習慣(例如抽菸、運動、飲食等)與各種檢驗值,都不在這個資料庫中。因此過去的研究以特定的共病或共病指標(例如Charlson Comorbidity Index; CCI)代替不良生活習慣可能導致的疾病,例如以發生肺部疾病代替抽菸習慣,但兩者的關聯有些牽強,因此,在健保資料庫中,當為了解決一個問題,就可能衍生另一個錯誤分組的機會。

文章標籤

estat 發表在 痞客邦 留言(0) 人氣()

 

    在臨床實驗或介入型研究,經常需要對同一個受試個體(Subject)在不同的時間點觀察其反應,當觀察的時間點只有兩個時,可以用來分析的統計方法為paired t-test;如果觀察的個體數目太少,則會建議使用相依樣本的無母數檢定方法,如:Wilcoxon signed-rank test,若反應變項為類別型資料,且資料為相依樣本的情況下,其統計檢定方法為McNemar Test

 

如果觀察的時間點有兩個以上時,上述的方法則不再適用,此時,就必須使用到一些重覆測量的方法,如:

 

  1. 1.    Hotelling T2:反應變項為連續型資料,且符合常態分配假設之下,可分析單一樣本或兩樣本的重覆測量,是T teat的延伸。

 

  1. 2.    Friedmans test反應變項為連續型資料,且為小樣本的情況下使用,為單一樣本重覆測量。由於是無母數檢定方法,原始值必需先轉為rank型態。

 

  1. 3.    Cochran’s Q test:反應變項為類別型資料(二元型態,binomial)的情況下可使用,為單一樣本重覆測量,且無母數檢定方法。基本假設為不同時間點,感興趣的事件發生的機率相等。

 

  1. 4.    重覆測量型變異數分析(Repeated Measures ANOVA)

        其中兩個重要的基本假設為(1):不同個體(subject)之間無關聯性、(2)同一個個體(subject)在不同時間(visit)的測量有相關。在共變異數矩陣(Covariance matrix)的分析中有一個基本的假設,同一個個體(subject)在不同時間(visit)的測量之相關都一樣。事實上,距離愈前期的測量結果愈遠,測量的相關會愈來愈弱,與臨床上許多的實際狀況不符,這樣的相關矩陣稱為Compound Symmetry(CS)。檢定這項基本假設的方法為Mauchly’s test of Sphericity(球面性假設),若不符基本假設,應採取更適合的方法。

        Repeated Measures ANOVA可分析單一樣本與多組樣本的重覆測量,反應變項為連續型資料,且需符合常態分配的基本假設。資料為橫向資料,若有任一次的資料中有缺失值,將整個subject被刪除,因此分析的資料特性必須是完整資料(Complete case)。對於會隨時間改變的解釋變數(例如每次所測量的除反應變項以外之生化值),無法一一對應至每一個時間點的反應變數,因此僅能分析不隨時間改變的解釋變數(例如性別)

文章標籤

estat 發表在 痞客邦 留言(2) 人氣()

 

過去曾經介紹過以SASIFN(), LAG()等函數將資料向下垂直移動,但SAS可否有LAG()函數的相反函數,也就是將資料垂直向上移動的函數,答案應該是沒有的,但可透過PROC EXPAND程序執行資料的垂直向上以及向下的移動,甚至是移動數個列數,該語法屬於Time series(時間序列)的應用。

【程式一】建立範例資料,資料中包含ID(身份證號)sex(性別)Birthday(生日)date (就醫日期)

 

【程式一】

data aa;
        input id $ sex $ birthday yymmdd10. +1 date yymmdd10.;
        format birthday date yymmdd10.;
cards;
A01 F 1958-01-04 2001-02-03

estat 發表在 痞客邦 留言(0) 人氣()

 

傳統的存活分析方法大多用於估計單一次事件(例如:死亡,得病等)的存活率,但是在臨床研究上,有些存活資料屬於復發事件(recurrent event);例如,同一個體(subject)在追蹤時間(follow-up time)內發生多次某種症狀。以傳統的存活分析的觀點,可以僅看第一次復發事件的存活分析,但缺點是忽略了其他復發事件發生的訊息。所以,當資料型態是這種情形下,採用多次復發存活分析方法是較爲合適的。
 
一般的存活分析方法僅能用於資料之間爲獨立的情形下,然而,在臨床研究上,常收集到的資料是具有相關性的;例如,同一個體(subject)中的眼睛、腎臟等兩個以上的器官所收集到的存活資料。此外,同一家庭內的兩個不同個體的存活資料,亦可視爲此種資料型態。此種資料因爲具有配對的特性,所以在分析上較爲複雜,所採用的方法為配對存活分析(Matched Survival)
 
在醫學研究中最常見的資料型態為右設限(right censored)資料,此類個案僅能記錄到從進入研究到研究截止的時間,在研究時間中止前,某些個案尚未發生感興趣的事件,所記錄的時間非真正發生事件的時間,造成資料不完整的情形。另一種常見的不完整情形爲左截切(left truncation)資料,左截切分析中,究者感興趣的是個案的存活年齡,例如65歲以後入住於老人安養院後能存活到幾歲。如果個案在研究開始前即死亡,則完全無法被觀察到,有別於右設限,左截切僅能觀察到部份的個案資料。在這種情形下,典型的Kaplan-Meier estimate是無法使用的。
 
另外。在醫學研究的實務應用中,可能存在有二種以上的不同事件,而感興趣的事件為其中一種。在這種情形下,出現某種事件可能會掩蓋了其它事件發生的可能性,此即為競爭風險(Competing Risks)。例如,針對白血病骨髓移植病患的研究,可能發生的事件有二種。白血病復發(relapse)以及移植失敗所造成的死亡(death)。如果我們要探討的是骨髓移植的復發率,移植失敗所造成的死亡(death)即為復發(relapse)的競爭風險事件(competing risk event)。所採用的方法為以累積發生函數(cumulative incidence function; CIF)來呈現特定事件在不同時間點發生的可能性。

 

相片2  

文章標籤

estat 發表在 痞客邦 留言(0) 人氣()

 

在資料分析時,經常遇到資料格式不是我們預期的,例如日期為文字型態,因此無法計算研究對象的年齡、或與時間有關的所有日期資料,或是資料合併時,發現兩個檔的資料型態不同,以致資料無法合併。以下將簡介SAS中的PUT()INPUT()等函數的應用。

PUT( )函數的通式:PUT(SOURCE, INFORMAT),可將數值型態的資料轉成文字型態的資料。

INPUT( )函數的通式:INPUT(SOURCE, INFORMAT),可將文字型態的資料轉成數值型態的資料。

函數中的SOURCE指的是變項名稱,INFORMAT指的是想要轉換的資料格式,以下以程式建立一筆資料,共4個變項,n. fee, date, date1,讀入的資料格式如下。

 

【產生範例資料檔】

data aa;
       input n fee $ date $ date1;
cards;

estat 發表在 痞客邦 留言(0) 人氣()

 

大數據  

書名:大數據(Big Data)  作者:麥爾荀伯格、庫基耶(天下文化出版)

/以斯帖統計顧問公司整理

 

 「巨量資料」、「海量資料」、「大數據」這一類的字眼,都是big data的翻譯,麥爾荀伯格(Viktor Mayer-Schonberger)和庫基耶(Kenneth Cukier)這兩位最頂尖的巨量資料專家,合寫的這一本《大數據》,書中提到幾個重要的觀念,使我們對「大數據」有了初步的概念

 

1.「更多資料,樣本=母體的時代來臨:過去資料不足的時代,也就是小量資料的時代,由於很難掌握到全體的資料,只好抽取樣本,發展種種統計技巧去推估母體的概況。但是在巨量資料時代,掌握全體的資料已不是夢。巨量資料的「巨量」不是絕對、而是相對的概念,指的是有完整的資料集。

2.「擁抱不精確,宏觀新世界」:容忍各種不精確(也就是雜亂),可能是件好事,放寬允許的誤差值,手中就有更多的資料,就更能看到全貌,資料量增大的時候,我們常常會需要接受雜亂的事實,並從精確走向可能性。

3.「找到相關性,不再拘泥於因果關係」:在原本小量資料的情境下,相關性就已經相當實用,而巨量資料靠著相關性,我們對事物的觀察就能更快、更輕鬆、也更清楚。在分析某個現象時,不用抽絲撥繭找出它運作的道理,只要找到有用的指標即可。靠著相關性,就能抓住現在,預測未來。

文章標籤

estat 發表在 痞客邦 留言(0) 人氣()

 

    當解釋變項間存在共線性問題,但又無法直接以剔除變項的方式進行多元回歸分析,此時可採用主成份回歸分析來減輕解釋變數間的多重共線性。以下以工作倦怠感預測生活滿意度為例,解釋變數包含年齡、性別及工作倦怠感量表上的20個測量題,如下的資料結構所示,但有幾組題目間存在著相當高的相關性,若同時放入回歸模式中會因共線性的關係影響模式的估計,如下表的相關係數表所示,第1-8題的相關性很高,第10-15題的相關性很高,同時第20-22題與第16-18題之間的相關性很高。因此可考慮將量表以主成份分析萃取出幾個成份(component),使相關性很高的題目組成一個成份,而每一個成份間的相關性是最低的,並將每一個成份重新命名,且計算每一成份新的分數(score),再進行多元邏輯斯回歸,如此即可解決多重共線性的問題,此法即主成份回歸分析法。在因素分析時,要用正交(或直交)轉軸法找出特定的成份,並為各成份命名,但命名的合理性是很容易受到爭議的。

 

主成份回歸1  

資料檔改編自「吳明隆SPSS統計應用學習實務:問卷分析與應用統計」

 

20題測驗題間的相關係數表(只取部份表格內容)

主成份回歸2  

 

    以下步驟已將工作倦怠感量表萃取出4個因素,並產生4個因素分數,在資料檔中,新的變數名為FAC1_1FAC2_1FAC3_1FAC4_1,我們重新將變數的標籤(Label)依序改為:工作挫折感、工作價值與目標低落、工作興趣感低落、人際關係冷漠,如下所示,再進行多元迴歸的程序。

estat 發表在 痞客邦 留言(0) 人氣()