在資料分析時,經常遇到資料格式不是我們預期的,例如日期為文字型態,因此無法計算研究對象的年齡、或與時間有關的所有日期資料,或是資料合併時,發現兩個檔的資料型態不同,以致資料無法合併。以下將簡介SAS中的PUT()INPUT()等函數的應用。

PUT( )函數的通式:PUT(SOURCE, INFORMAT),可將數值型態的資料轉成文字型態的資料。

INPUT( )函數的通式:INPUT(SOURCE, INFORMAT),可將文字型態的資料轉成數值型態的資料。

函數中的SOURCE指的是變項名稱,INFORMAT指的是想要轉換的資料格式,以下以程式建立一筆資料,共4個變項,n. fee, date, date1,讀入的資料格式如下。

 

【產生範例資料檔】

data aa;
       input n fee $ date $ date1;
cards;

estat 發表在 痞客邦 留言(0) 人氣()

 

大數據  

書名:大數據(Big Data)  作者:麥爾荀伯格、庫基耶(天下文化出版)

/以斯帖統計顧問公司整理

 

 「巨量資料」、「海量資料」、「大數據」這一類的字眼,都是big data的翻譯,麥爾荀伯格(Viktor Mayer-Schonberger)和庫基耶(Kenneth Cukier)這兩位最頂尖的巨量資料專家,合寫的這一本《大數據》,書中提到幾個重要的觀念,使我們對「大數據」有了初步的概念

 

1.「更多資料,樣本=母體的時代來臨:過去資料不足的時代,也就是小量資料的時代,由於很難掌握到全體的資料,只好抽取樣本,發展種種統計技巧去推估母體的概況。但是在巨量資料時代,掌握全體的資料已不是夢。巨量資料的「巨量」不是絕對、而是相對的概念,指的是有完整的資料集。

2.「擁抱不精確,宏觀新世界」:容忍各種不精確(也就是雜亂),可能是件好事,放寬允許的誤差值,手中就有更多的資料,就更能看到全貌,資料量增大的時候,我們常常會需要接受雜亂的事實,並從精確走向可能性。

3.「找到相關性,不再拘泥於因果關係」:在原本小量資料的情境下,相關性就已經相當實用,而巨量資料靠著相關性,我們對事物的觀察就能更快、更輕鬆、也更清楚。在分析某個現象時,不用抽絲撥繭找出它運作的道理,只要找到有用的指標即可。靠著相關性,就能抓住現在,預測未來。

文章標籤

estat 發表在 痞客邦 留言(0) 人氣()

 

    當解釋變項間存在共線性問題,但又無法直接以剔除變項的方式進行多元回歸分析,此時可採用主成份回歸分析來減輕解釋變數間的多重共線性。以下以工作倦怠感預測生活滿意度為例,解釋變數包含年齡、性別及工作倦怠感量表上的20個測量題,如下的資料結構所示,但有幾組題目間存在著相當高的相關性,若同時放入回歸模式中會因共線性的關係影響模式的估計,如下表的相關係數表所示,第1-8題的相關性很高,第10-15題的相關性很高,同時第20-22題與第16-18題之間的相關性很高。因此可考慮將量表以主成份分析萃取出幾個成份(component),使相關性很高的題目組成一個成份,而每一個成份間的相關性是最低的,並將每一個成份重新命名,且計算每一成份新的分數(score),再進行多元邏輯斯回歸,如此即可解決多重共線性的問題,此法即主成份回歸分析法。在因素分析時,要用正交(或直交)轉軸法找出特定的成份,並為各成份命名,但命名的合理性是很容易受到爭議的。

 

主成份回歸1  

資料檔改編自「吳明隆SPSS統計應用學習實務:問卷分析與應用統計」

 

20題測驗題間的相關係數表(只取部份表格內容)

主成份回歸2  

 

    以下步驟已將工作倦怠感量表萃取出4個因素,並產生4個因素分數,在資料檔中,新的變數名為FAC1_1FAC2_1FAC3_1FAC4_1,我們重新將變數的標籤(Label)依序改為:工作挫折感、工作價值與目標低落、工作興趣感低落、人際關係冷漠,如下所示,再進行多元迴歸的程序。

estat 發表在 痞客邦 留言(0) 人氣()

 

下圖有2組散佈圖,1組是FPG vs Age (空腹血糖值與年齡)的散佈圖,另1組為HbA1c vs Age (糖化血色素與年齡)的散佈圖。但2種檢驗值的測量尺度不同,如何同時呈現兩種尺度的Y軸?若想知道空腹血糖值與年齡的相關較大,還是糖化血色素與年齡的相關較大,並在同一張圖上呈現2組散佈圖,配適一條回歸線,該怎麼做呢?

 

請注意!下圖左右各有兩條不同的座標軸,左邊是FPGY軸,右邊是HbA1cY軸,給定兩種不同測量尺度的檢驗值各自的軸線及尺度,即可解決以上的問題。操作步驟如下:

 SigmaPlot雙軸            

1.   請將檔案匯入
2.   先畫好FPGAge的迴歸散佈圖,再利用Add New Plot加入HbA1c Age的迴歸散佈圖。

(1) 選擇Create Graph中的Scatter,再選擇Simple Scatter - Regression

SigmaPlot雙軸2  

(2) Data formatXY Pairs

estat 發表在 痞客邦 留言(0) 人氣()

 

通常我們收回集的資料乍看之下是很混亂,且讓人頭疼的。因此我們需要能從中找出資料的特性。由以下的舞蹈可以看到如何從混亂中衍生出規則,請注意!一開始,舞者的位置是雜亂的,動作有快亦有慢。之後,我們可以看到舞者頋依據他們的速度重新排列位置,跳得慢的站在左邊,快的在右邊,其餘的在中間。他們產生了次數分佈,水平方向呈現的是速度,垂直方向呈現不同速度的個數,這樣的分佈近似常態分佈(normal distribution)或稱高斯分佈(Gaussian distribution)。特別要留意的是,很少的舞者站在特別快或特別慢的位置,大部份的舞者屬於中等速度且站在中間,這樣的資料分佈特徵為鐘形曲線(bell-shaped curve)

 

將資料視覺化可以幫助我們從混亂中看出規則,透過次數分配的呈現,可以看到每個數值出現的頻率,以及看出資料分配的特性。而常態分配只是各種次數分配的一種,且大部份的數值集中在中間,極端值在兩側。
 
以下的影片由英國心理學會(British Psychological Society; BPS) 募集資金製作的,希望透過舞蹈的趣味讓更多心理學系學生對統計觀念有更深刻的印象。

  


estat 發表在 痞客邦 留言(0) 人氣()

 

   若研究者想做一張單變項的回歸分析表, 當要看的影響因子愈多, 要進行的單變項回歸分析次數愈多, 於是要反覆執行很多的model, 透過巨集指令功能,即能快速執行完所有的model

    以下同樣要介紹SAS的巨集指令, 以及搭配ODS(Output Delivery System)功能, 以快速產生COX-REGRESSION的統計表格

   如果研究者想看某族群的環境污染劑量與癌症的關係,於是進行劑量效應關係分析(DOSE-RESPONSE EFFECT),並利用在圖表中的範例資料進行分析, 該檔有幾個主要變項:stdno (研究序號), gender (性別), inage(開始曝露於環境污染源的年齡), foloow_up(觀查時間:), dose (環境污染物的劑量), ca1-ca22(各種癌症的欄位名稱, 且欄位中的1為有發生, 0為未發生)。(僅呈現10筆)


 Cox-regression  


estat 發表在 痞客邦 留言(0) 人氣()

 

國立成功大學「公共衛生碩士學分班」103學年度第2學期招生簡章

一、主旨:

推廣全民健康及健保永續之理念與實際作法,並使醫藥衛生相關領域之工作者對於公共衛生之理論與實務有更深入的了解。

二、報名日期:2015112日至2015124日。

三、招生對象:

1.大專()以上畢業。

2.對醫療體系、健康照護、健保永續發展、全民健康之推動有興趣者。

、簡章下載成大公衛所首頁最新公告http://ph.med.ncku.edu.tw/

、報名方式:請至本校推廣教育班線上報名系統

文章標籤

estat 發表在 痞客邦 留言(0) 人氣()

 

為了計算不同族群間、或不同時期的率差或率比,必需以標準人口結構調整死亡率才能進一步比較,否則因不同族群、或不同時期的人口結構不同,則會影響比較結果。標準人口通常是一組大而人口結構穩定的族群,例如全國人口,若要進行國際間的比較,將以2000年世界標準人口進行標準化(不分性別、每5歲一個年齡組距)

 

標準化率    

 

直接標準化率之95%信賴區間:

標準化率2   

i:年齡別

SR:標準化率 

CRi:粗率 

estat 發表在 痞客邦 留言(0) 人氣()

 

一、研究設計

 

    健保資料庫的研究設計主要為回溯型世代研究(Retrospective cohort study),研究者提出資料申請時,研究世代已存在於健保資料庫中,因此所作的研究為回溯型的研究。利用健保資料所進行的Case-control study (病例對照研究),可進一步定義為Nested case-control study(巢式病例對照研究),當研究者以特定的病例(Case)配對一定比例的對照組(control),病例組與對照組來自相同的世代,且這世代早已存在於保存完善的資料庫中,故可稱為Nested case-control study

 

    在健保資料庫中,配對(matching)是常見的控制干擾因子的方式,配對的時間點若是暴露開始時間(例如給藥開始時間、開始接受心理治療時間、剛診斷為憂鬱症時間),在研究設計上屬於世代研究法(cohort study),研究者將回溯到病人暴露開始的時間點,再繼續追蹤病人後續的病情變化(康復、復發、死亡,或發生不良反應等),以探討暴露對疾病發展的影響。在有暴露組與非暴露組的情況下,可以建立暴露風險指標,以比較兩組的相對風險。較常使用的風險指標包括:直接標準化率比 (Standardized Rate Ratio; SRR)、間接標準化發生比(Standardized Incidence Ratio; SIR)、間接標準化死亡比(Standardized Mortality Ratio; SMR)、風險比值(Hazard  Ratio; HR)、相對危險比值(Relative Ratio; RR)等。

 

  健保研究設計1   

 健保資料庫的回溯性世代研究

 

文章標籤

estat 發表在 痞客邦 留言(0) 人氣()

 

之前曾介紹分層抽樣法在SAS程式中的應用(分層等比例抽樣法 分層不等比例抽樣法 ),此單元將對分層抽樣法作更深入的介紹。

 

分層抽樣(stratified sampling)屬於隨機抽樣法(Radom sampling)中的一種,其方法為將抽樣母體分成性質不同或互斥的若干組,每一組為一個『層』(strata),同層的性質要儘量相近,即變異要愈小愈好;不同層間的變異要愈大愈好,但分層組數不宜太多,可在6組以內(Cochran 1963)。選擇分層的變數通常與研究的主題有直接的關聯,例如依BMI(身體質量指數)的大小將肥胖程度分為過瘦(18以下)、標準(18-23.9)、輕微過重(24-26.9)以及過重(27以上)等。其他常用的變項如性別、年齡、社經地位、都市化程度等。

 

再從各層中隨機抽取樣本,此法可依適用情形再分為等比例抽樣以及不等比例抽樣。等比例抽樣(或稱分層固定比例)中,適用當各層樣本數與該層總體數的比值相等,而採取固定的比例抽樣。例如,樣本大小n=50,總體N=500,則n/N=0.1 即為樣本比例,每層均按這個比例確定該層樣本數,可避免各層抽過多或過少,並減少抽樣誤差,最常用的方法是「比例配置法」(Proportional allocation。不等比例抽樣的適用情形為層內變異較大,則抽樣個數較多,反之則抽較少,常用方法為「尼曼配置法」(Neyman allocation各層樣本數與該層總體數的比值並不固定

 

採用分層抽樣法可避免出現簡單隨機抽樣中的集中於某些特性或遺漏掉某些特性的缺點,而其優點為可靠性高且利於比較。

 

要如何來決定每一層內抽出的樣本數呢?以下為各層樣本數的估計方法

文章標籤

estat 發表在 痞客邦 留言(0) 人氣()