以斯帖統計顧問公司

Jan 21 Tue 2014 18:58
資料的水平合併(Merge)(三)

健保資料庫的資料處理過程有許多資料合併的步驟，可知道您在合併什麼嗎？過去常有人問門診檔與住院檔要怎麼合併？用SET？還是用MERGE？其實要看您的研究目的，以及您要合併的檔案內容。無論用什麼方式，或選用什麼樣的軟體，合併前必須注意三件事，首先要注意串聯兩個檔的關鍵變項(KEY VARIABLE)之名稱、屬性(文字、數值、日期)、資料寬度是否一致，其次，兩個檔案間是否還有除了關鍵變項以外，名稱與屬性一樣的變項，它會干擾合併的結果。

[程式一] 以程式寫入2個資料檔bb, cc，都放入id(身份證號)、date(就醫日期)、fee(醫療費用)，id為文字型態的欄位；date為日期格式yymmdd10. ；fee為數值型態。但檔案bb與檔案cc的date與fee內容並不一樣。format date yymmdd10.;係指定date的SAS格式是yymmdd10.，這種型式指的是西元年-月-日，寬度共10個位元(byte)。

[程式二]利用MERGE將兩檔串聯起來， id為關鍵變項。根據結果一，會發現檔案dd的第一筆date與fee都被檔案cc的第一筆取代，這真的是研究者要的結果嗎？(見結果一)

[程式三]若要同時保留所有資料檔的訊息，可以將其中的一個檔的date與fee重新命名，利用RENAME指令進行修改，將date改成date1；fee改成fee1，結果請見結果二。

很簡單的步驟，但真的要知道自己在合併什麼？而且一定要檢查合併結果是否符合預期。

(繼續閱讀...)

estat 發表在痞客邦留言(0) 人氣()

個人分類：SAS程式編輯武功秘笈

▲top

Jan 21 Tue 2014 18:47
資料的水平合併(Merge)(二)

在分析健保資料庫時，資料的合併是一個很重要的過程，但往往出錯的地方也是在此，今日要以數學「集合」的觀念來探討資料的合併，曾經有醫師抱怨這個部份很難懂，若以圖像的方式來解說，那麼就可一目瞭然了。

首先，利用 [程式一] 與 [程式二]寫入一組資料檔，第一組的檔名為aa，第二組的檔名為bb。利用INPUT指令放入一個變項 ID，"$"符號說明ID屬於文字變項，@@宣告即將輸入一列多筆的資料。

大家若稍微觀察一下將發現，檔案bb比aa多了17 、 18、 19 、 20 、 21、 22 、 23 、 24 、 25 等ID；檔案aa比bb多了26 、 27 、 28 、 29 、 30 、 31 、 32 、 33 、 34等ID，利用這兩個檔，我們來練習看看，如何進行資料的水平合併(Merge)。 [註: SET指令後方若放兩組以上的檔案，稱為垂直合併，新的資料筆數是所有檔案的筆數總合]

[程式三]是大家至為熟悉的程式，DATA指令後面指定新的檔案名稱為cc，透過MERGE(合併)指令將檔案aa與檔案bb合併起來。但兩個檔案的後面分別加了(in=a)、(in=b)的指令，它的目的即將檔案aa命名為集合a，將檔案bb命名為集合b，再以BY指令指定合併的關鍵字(KEY WORD)為ID，寫上RUN(執行)即已完成，此時兩檔的所有資料都被合併進來，如圖1所示。

[程式四]是[程式三]的加強說明，在by id之後，若加上if a|b;，即說明納入的ID是來自a集合或b集合，是聯集的概念。其意義與[程式三]是一致的，但我們一般不會畫蛇添足地多寫這麼一段。(見圖1) [ a|b的'|'為英文字 "or"之意 ]

(繼續閱讀...)

estat 發表在痞客邦留言(1) 人氣()

個人分類：SAS程式編輯武功秘笈

▲top

Jan 21 Tue 2014 18:19
大批資料的垂直合併

當我們將大批有規律的檔名讀進來，並經由巨集指令(Macro language)轉換成流水號形式的檔名，但最終還是要將每一個檔合併起來，若不以巨集指令合併檔案，傳統的作法即如[程式一]所示，利用SET語法將468個檔案合併起來，利用DATA指令宣告新的檔名為e.cd，因此需要把檔名書寫468次，過程必須如屢薄冰般的謹慎。今日將以巨集指令的兩個範例─[程式二]與[程式三]，示範大批資料的合併。

[程式一]
data e.cd;
set e.cd1 e.cd2 e.cd3 e.cd4 e.cd5 e.cd6 e.cd7 e.cd8 e.cd9 e.cd10 .......e.cd468;
run;

[程式二] 的%macro宣告將執行巨集指令，且巨集名稱(macro name)為m1，並未給定任何參數，%mend說明巨集結束於此。巨集的迴圈為程式段[%do i=1 %to 468; ]。利用DATA指令將新的檔案命名為e.cd，以SET指令讀取一個空的檔，檔名為_NULL_，NULL這個英文字即是零或虛無的意思，因為讀取零筆資料，所以DATA指令所建立的新檔案E.CD也是空的。這是一個預備動作，彷彿拿了一個空籃子，準備將球一個一個丟進來，而空藍子指得是哪一個檔呢？ [答案; E.CD]

(繼續閱讀...)

estat 發表在痞客邦留言(2) 人氣()

個人分類：SAS程式編輯武功秘笈

▲top

Jan 21 Tue 2014 18:15
淺談病例交叉設計(case-crossover design)

病例交叉設計可以說是病例對照設計(case-control design)及交叉設計(crossover design)的綜合體，它兼具了上述兩種設計方式的特性。此外，一般來說，世代研究(cohort study)在實行時所面臨的難題，是如何選擇一個可進行比較的對照組。而在病例交叉研究中，每一個體(subject)可做為他自己的對照組。只有那些個體發生特定事件（亦即病例組），且同時於特定事件發生日期前的某段時間內有接觸過特定治療(treatment)，才可以納入試驗的個案中。相同個體在治療結果發生前較短時間(case period)接觸過特定治療之勝算(odds)，會與特定結果發生前較久時間(control period)有接觸過特定治療勝算(odds)相比較，以計算出勝算比(odds ratio; OR)來解釋最後的研究發現。

不過，病例交叉設計亦有其限制，例如無法找出危險因子(例如是否抽煙，以及是否有某種特定的disease)，而這正是許多研究者想了解的部份。病例交叉設計最適合用於探討因爲短暫治療(treatment) (例如用藥與否)而導致急性事件(例如某種生化檢驗值是否上升或下降)的發生，但需要有足夠樣本的病例，這些病例必須發生過急性事件，且同時有近期或較久以前的時間接觸過藥物之記錄。

Reference:
Maclure M. The case-crossover design: a method for studying transient effects on the risk of acute events. Am J Epidemiol. 1991;133:144–53.

estat 發表在痞客邦留言(0) 人氣()

個人分類：淺談研究設計

▲top

Jan 21 Tue 2014 17:46
如何利用巨集指令讀取「衛生福利資料科學中心」之龐大資料群

過去已介紹檔案間沒有關鍵字將如何合併？(資料的合併)利用該程式，今日要教各位如何讀取大批命名有規律的檔。

自「全民健康保險研究資料庫」釋出後，大型資料的研究已是台灣學術研究的優勢，在國際學術期刊上已有亮麗成績，「衛生福利資料科學中心」如今亦開放健保資料庫、癌症登記檔與死亡檔的資料比對，但面對全國性的龐大資料檔，光是讀檔案的步驟，就是惱人的大工程。不用著急，也毋需土法煉鋼，今天的程式可以讓大家以後讀檔更輕鬆了。

以下將以讀取「衛生福利資料科學中心」之健保民國87-99年「門診處方及治療明細檔」為例，其中一個檔名為h_nhi_opdte8702_01。如何拆解這個檔名呢？h_nhi_opdte 在龐大的檔案群是固定的，87為年份，02為月份，01為西醫(02、03為牙醫與中醫)，因此所有檔案讀進來，一年有36個檔，13年有468個檔，如何讀取這麼龐大的檔案群呢？

[程式一] 利用程式寫入3個資料檔，第一個資料檔檔名為year，僅放入民國年資料；第二個資料檔檔名為month，僅放入月份資料；第三個資料檔檔名為group，僅放入醫療型態(西醫、牙醫、中醫)資料。

(繼續閱讀...)

estat 發表在痞客邦留言(1) 人氣()

個人分類：SAS程式編輯武功秘笈

▲top

Jan 21 Tue 2014 17:26
資料的水平合併(Merge)(一)

當資料合併時必須要有一組關鍵字(KEY WORD)存在於每一個欲合併起來的檔案中，但沒有關鍵字時結果將如何?

舉以下的例子來聊聊

以下有一個經過3個資料檔合併後的檔案，這3個檔各只有一個變項: year(87~99), month(01~12), group(10~30)，且3個檔的內容完全不同
但彼此間沒有關鍵字。過去我們將會寫以下這麼一隻程式(如程式一)，如下所示, 其中合併後的檔案為ymg，3個檔案的檔名依序為year, month, group，結果資料合併後如結果一。

data year; /*--檔案1 --*/

do year= 86 to 98;

(繼續閱讀...)

estat 發表在痞客邦留言(0) 人氣()

個人分類：SAS程式編輯武功秘笈

▲top

Jan 21 Tue 2014 17:22
從一張黑膠唱盤尋找逝去的民國六十年

這個週末，筆者無意間在公館發現了一間藏身在地下室的二手書店，順著樓梯往下，撲鼻的霉味有點讓人難受，但走進店門的那一刻，內心卻興奮無比，這別有洞天的一番小天地裡，竟有這麼多過時的黑膠唱盤、光碟與書報雜誌，於是迫不及待地在架上找尋過往的回憶。

在一排又一排紙套皆有些微甚至嚴重泡水或磨損的黑膠唱片前，發現了一張民國六十年的黑膠唱盤，封面是六個穿著水手裝的可愛小女孩，背景是台北松山機場，而唱片主打的是：『兒童歌曲─國民小學教育唱片』。筆者看著封面沉思許久，多希望有『多拉A夢』的時光機穿越到那個動盪不安卻又淳樸可愛的年代。

民國六十年，在政治上，會讓人聯想起白色恐怖時代(指1949年至1987年間)，當時為了防止中國共產黨在台灣擴散且為鞏固當權者統治地位，國家公權力受到濫用，導致許多人成為無辜犧牲者。政治也強力介入了教育，民國五十九年八月二十四日，教育部通過「光復大陸教育重建綱要」，教育的重點，在於清除共產主義思想的毒素，重建倫理、民主、科學的三民主義文化(中華百科全書)。筆者的小學生活也經歷過寫作或朗讀時，對國家歌功頌德，對共產主義大張撻伐就能得高分的年代。

於是我翻到唱片的背面，此專輯共有4輯，在72首歌當中，共收錄了9首反共愛國歌曲，包括：國歌、國旗歌、國慶歌、國父紀念歌、領袖歌、反共復國歌、我中華、建設我中華、一起上戰場。

(繼續閱讀...)

estat 發表在痞客邦留言(0) 人氣()

個人分類：統計人的心靈小棧

▲top

Jan 21 Tue 2014 16:50
她的暗夜哭泣，統計，有時也愛莫能助

冬-統計幫不上的忙2

版權: 以斯帖統計顧問公司/繪圖: 林子傑

幾年前從公家機關接手一份雜亂無章的資料，是一群工人們自填的問卷資料，這些工人是在約莫二十年前一場工安事件的主角，事件至今尚未落幕。

在民國六、七零年台灣經濟正起飛的年代，美國某知名家電大廠在桃園設廠時，將含致癌物質的廢料長期挖井傾倒，導致土壤及地下水污染，據聞有一千多名員工陸續罹患各種癌症，桃園縣有一個村也因「寡婦村」而名聲不脛而走，因村子裡很多男人死於癌症，他們曾是該廠員工。

為了幫助這些無權無勢的自救員工，有八十位律師義務組成律師團，官方(勞委會及環保署)被迫進行各項調查及環境檢測，行政院組成專案小組，但廠商悄悄將資本移轉國外，並且將廠房轉賣，後來官方報告顯示該廠前員工的癌症與廠中的廢料無關。在此同時，二百多名罹癌員工已撒手人寰，留下破碎的家庭，以及永遠無法復育的台灣土地。

(繼續閱讀...)

estat 發表在痞客邦留言(0) 人氣()

個人分類：統計人的心靈小棧

▲top

Jan 21 Tue 2014 14:38
如何使用多重死因資料發表SCI論文？

如何使用多重死因資料發表SCI論文？
沒有論文發表壓力者請勿報名！

【初階演講班】
演講內容：台灣與美國多重死因資料庫內容介紹，使用多重死因資料可以進行那些研究。
報名費用：NT 1,000
上課日期：2014年
台南場1月22日(週三)；2月14日(週五)；3月08日(週六) 上午九點半至十二點
台北場1月23日(週四)；2月13日(週四)；3月15日(週六) 上午九點半至十二點

(繼續閱讀...)

estat 發表在痞客邦留言(2) 人氣()

個人分類：統計教學

▲top

以斯帖統計顧問公司

資料的水平合併(Merge)(三)

資料的水平合併(Merge)(二)

大批資料的垂直合併

淺談病例交叉設計(case-crossover design)

如何利用巨集指令讀取「衛生福利資料科學中心」之龐大資料群

資料的水平合併(Merge)(一)

從一張黑膠唱盤尋找逝去的民國六十年

她的暗夜哭泣，統計，有時也愛莫能助

如何使用多重死因資料發表SCI論文？

熱門文章

文章分類

最新文章

最新留言

文章精選

參觀人氣

以斯帖統計部落格