健保資料庫的資料處理過程有許多資料合併的步驟,可知道您在合併什麼嗎?過去常有人問門診檔與住院檔要怎麼合併?用SET?還是用MERGE?其實要看您的研究目的,以及您要合併的檔案內容。無論用什麼方式,或選用什麼樣的軟體,合併前必須注意三件事,首先要注意串聯兩個檔的關鍵變項(KEY VARIABLE)之名稱、屬性(文字、數值、日期)、資料寬度是否一致,其次,兩個檔案間是否還有除了關鍵變項以外,名稱與屬性一樣的變項,它會干擾合併的結果。


[程式一] 以程式寫入2個資料檔bb, cc,都放入id(身份證號)date(就醫日期)fee(醫療費用)id為文字型態的欄位;date為日期格式yymmdd10. fee為數值型態。但檔案bb與檔案ccdatefee內容並不一樣。format date yymmdd10.;係指定dateSAS格式是yymmdd10.,這種型式指的是 西元年--日,寬度共10個位元(byte)


[程式二]利用MERGE將兩檔串聯起來,  id為關鍵變項。根據結果一,會發現檔案dd的第一筆datefee都被檔案cc的第一筆取代,這真的是研究者要的結果嗎?(見結果一)

[程式三]若要同時保留所有資料檔的訊息,可以將其中的一個檔的datefee重新命名,利用RENAME指令進行修改,將date改成date1fee改成fee1,結果請見結果二。

很簡單的步驟,但真的要知道自己在合併什麼?而且一定要檢查合併結果是否符合預期。

文章標籤

estat 發表在 痞客邦 留言(0) 人氣()

   

在分析健保資料庫時,資料的合併是一個很重要的過程,但往往出錯的地方也是在此,今日要以數學「集合」的觀念來探討資料的合併,曾經有醫師抱怨這個部份很難懂,若以圖像的方式來解說,那麼就可一目瞭然了。

首先,利用 [程式一] [程式二]寫入一組資料檔,第一組的檔名為aa第二組的檔名為bb。利用INPUT指令放入一個變項 ID"$"符號說明ID屬於文字變項,@@宣告即將輸入一列多筆的資料。


大家若稍微觀察一下將發現,檔案bbaa多了17 18 19 20 21 22 23 24 25 ID;檔案aabb多了26 27 28 29 30 31 32 33 34ID,利用這兩個檔,我們來練習看看,如何進行資料的水平合併(Merge) [: SET指令後方若放兩組以上的檔案,稱為垂直合併,新的資料筆數是所有檔案的筆數總合]

[
程式三]是大家至為熟悉的程式,DATA指令後面指定新的檔案名稱為cc,透MERGE(合併)指令將檔案aa與檔案bb合併起來。但兩個檔案的後面分別加了(in=a)(in=b)的指令,它的目的即將檔案aa命名為集合a,將檔案bb命名為集合b,再以BY指令指定合併的關鍵字(KEY WORD)ID,寫上RUN(執行)即已完成,此時兩檔的所有資料都被合併進來,如圖1所示。


[
程式四][程式三]的加強說明,在by id之後,若加上if a|b;,即說明納入的ID是來自a集合或b集合,是聯集的概念。其意義與[程式三]是一致的,但我們一般不會畫蛇添足地多寫這麼一段。(見圖1) [ a|b'|'為英文字 "or"之意 ]

文章標籤

estat 發表在 痞客邦 留言(1) 人氣()

 

當我們將大批有規律的檔名讀進來,並經由巨集指令(Macro language)轉換成流水號形式的檔名,但最終還是要將每一個檔合併起來,若不以巨集指令合併檔案,傳統的作法即如[程式一]所示,利用SET語法將468個檔案合併起來,利用DATA令宣告新的檔名為e.cd,因此需要把檔名書寫468次,過程必須如屢薄冰般的謹慎。今日將以巨集指令的兩個範例[程式二][程式三],示範大批資料的合併。



[程式一]

data e.cd;
set e.cd1 e.cd2 e.cd3 e.cd4 e.cd5 e.cd6 e.cd7 e.cd8 e.cd9 e.cd10 .......e.cd468;
run; 

[程式二] %macro宣告將執行巨集指令,且巨集名稱(macro name)m1,並未給定任何參數,%mend說明巨集結束於此。巨集的迴圈為程式段[%do i=1 %to 468; ]。利用DATA指令將新的檔案命名為e.cd,以SET指令讀取一個空的檔,檔名為_NULL_NULL這個英文字即是零或虛無的意思,因為讀取零筆資料,所以DATA指令所建立的新檔案E.CD也是空的。這是一個預備動作,彷彿拿了一個空籃子,準備將球一個一個丟進來,而空藍子指得是哪一個檔呢? [答案; E.CD]

文章標籤

estat 發表在 痞客邦 留言(2) 人氣()

 

病例交叉設計可以說是病例對照設計(case-control design)及交叉設計(crossover design)的綜合體,它兼具了上述兩種設計方式的特性。此外,一般來說,世代研究(cohort study)在實行時所面臨的難題,是如何選擇一個可進行比較的對照組。而在病例交叉研究中,每一個體(subject)可做為他自己的對照組。只有那些個體發生特定事件(亦即病例組),且同時於特定事件發生日期前的某段時間內有接觸過特定治療(treatment),才可以納入試驗的個案中。相同個體在治療結果發生前較短時間(case period)接觸過特定治療之勝算(odds),會與特定結果發生前較久時間(control period)有接觸過特定治療勝算(odds)相比較,以計算出勝算比(odds ratio; OR)來解釋最後的研究發現。


不過,病例交叉設計亦有其限制,例如無法找出危險因子(例如是否抽煙,以及是否有某種特定的disease),而這正是許多研究者想了解的部份。病例交叉設計最適合用於探討因爲短暫治療(treatment) (例如用藥與否)而導致急性事件(例如某種生化檢驗值是否上升或下降)的發生,但需要有足夠樣本的病例,這些病例必須發生過急性事件,且同時有近期或較久以前的時間接觸過藥物之記錄。

Reference:
Maclure M. The case-crossover design: a method for studying transient effects on the risk of acute events. Am J Epidemiol. 1991;133:144–53.


文章標籤

estat 發表在 痞客邦 留言(0) 人氣()


過去已介紹檔案間沒有關鍵字將如何合併?(資料的合併)利用該程式,今日要教各位如何讀取大批命名有規律的檔。

自「全民健康保險研究資料庫」釋出後,大型資料的研究已是台灣學術研究的優勢,在國際學術期刊上已有亮麗成績,「衛生福利資料科學中心」如今亦開放健保資料庫、癌症登記檔與死亡檔的資料比對,但面對全國性的龐大資料檔,光是讀檔案的步驟,就是惱人的大工程。不用著急,也毋需土法煉鋼,今天的程式可以讓大家以後讀檔更輕鬆了。

以下將以讀取「衛生福利資料科學中心」之健保民國87-99年「門診處方及治療明細檔」為例,其中一個檔名為h_nhi_opdte8702_01。如何拆解這個檔名呢?h_nhi_opdte 在龐大的檔案群是固定的87為年份,02為月份,01為西醫(0203為牙醫與中醫),因此所有檔案讀進來,一年有36個檔13年有468個檔,如何讀取這麼龐大的檔案群呢?

[程式一] 利用程式寫入3個資料檔,第一個資料檔檔名為year,僅放入民國年資料;第二個資料檔檔名為month,僅放入月份資料;第三個資料檔檔名為group,僅放入醫療型態(西醫、牙醫、中醫)資料。


文章標籤

estat 發表在 痞客邦 留言(1) 人氣()

 

當資料合併時必須要有一組關鍵字(KEY WORD)存在於每一個欲合併起來的檔案中,但沒有關鍵字時結果將如何?

舉以下的例子來聊聊

以下有一個經過3個資料檔合併後的檔案,這3個檔各只有一個變項: year(87~99), month(01~12), group(10~30),且3個檔的內容完全不同
但彼此間沒有關鍵字。過去我們將會寫以下這麼一隻程式(如程式一),如下所示, 其中合併後的檔案為ymg3個檔案的檔名依序為year, month, group,結果資料合併後如結果一。

 

data year; /*--檔案1 --*/

 

do year= 86 to 98;

文章標籤

estat 發表在 痞客邦 留言(0) 人氣()

  

DSC08308

這個週末,筆者無意間在公館發現了一間藏身在地下室的二手書店,順著樓梯往下,撲鼻的霉味有點讓人難受,但走進店門的那一刻,內心卻興奮無比,這別有洞天的一番小天地裡,竟有這麼多過時的黑膠唱盤、光碟與書報雜誌,於是迫不及待地在架上找尋過往的回憶。

在一排又一排紙套皆有些微甚至嚴重泡水或磨損的黑膠唱片前,發現了一張民國六十年的黑膠唱盤,封面是六個穿著水手裝的可愛小女孩,背景是台北松山機場,而唱片主打的是:『兒童歌曲國民小學教育唱片』。筆者看著封面沉思許久,多希望有『多拉A夢』的時光機穿越到那個動盪不安卻又淳樸可愛的年代。

民國六十年,在政治上,會讓人聯想起白色恐怖時代(1949年至1987年間),當時為了防止中國共產黨在台灣擴散且為鞏固當權者統治地位,國家公權力受到濫用,導致許多人成為無辜犧牲者。政治也強力介入了教育,民國五十九年八月二十四日,教育部通過「光復大陸教育重建綱要」,教育的重點,在於清除共產主義思想的毒素,重建倫理、民主、科學的三民主義文化(中華百科全書)。筆者的小學生活也經歷過寫作或朗讀時,對國家歌功頌德,對共產主義大張撻伐就能得高分的年代。

於是我翻到唱片的背面,此專輯共有4輯,在72首歌當中,共收錄了9首反共愛國歌曲,包括:國歌、國旗歌、國慶歌、國父紀念歌、領袖歌、反共復國歌、我中華、建設我中華、一起上戰場。

文章標籤

estat 發表在 痞客邦 留言(0) 人氣()

 

冬-統計幫不上的忙2  

版權以斯帖統計顧問公司/繪圖林子傑

 

幾年前從公家機關接手一份雜亂無章的資料,是一群工人們自填的問卷資料,這些工人是在約莫二十年前一場工安事件的主角,事件至今尚未落幕。


在民國六、七零年台灣經濟正起飛的年代,美國某知名家電大廠在桃園設廠時,將含致癌物質的廢料長期挖井傾倒,導致土壤及地下水污染,據聞有一千多名員工陸續罹患各種癌症,桃園縣有一個村也因「寡婦村」而名聲不脛而走,因村子裡很多男人死於癌症,他們曾是該廠員工。

為了幫助這些無權無勢的自救員工,有八十位律師義務組成律師團,官方(勞委會及環保署)被迫進行各項調查及環境檢測,行政院組成專案小組,但廠商悄悄將資本移轉國外,並且將廠房轉賣,後來官方報告顯示該廠前員工的癌症與廠中的廢料無關。在此同時,二百多名罹癌員工已撒手人寰,留下破碎的家庭,以及永遠無法復育的台灣土地。

文章標籤

estat 發表在 痞客邦 留言(0) 人氣()


       

如何使用多重死因資料發表SCI論文?
沒有論文發表壓力者請勿報名!

【初階演講班】
演講內容:台灣與美國多重死因資料庫內容介紹,使用多重死因資料可以進行那些研究。
報名費用:NT 1,000
上課日期:2014
台南場122(週三)214(週五)308(週六) 上午九點半至十二點
台北場123(週四)213(週四)315(週六) 上午九點半至十二點

文章標籤

estat 發表在 痞客邦 留言(2) 人氣()