過去10年,學術界一窩蜂地以健保資料庫作為『省錢、省時、省力』的研究方法,由於過於浮濫的發表,有些學校已嚴格限制健保資料庫作為升等的題材,究竟這麼珍貴的資料庫,何以成為被學界所垢病的次級資料(secondary data),究竟這個領域的研究限制是什麼?而它獨步全球的優勢又是什麼?

 

在還未有健保資料庫之前,醫藥研究不外乎臨床試驗、在臨床或社區收問卷、收檢體、環境採樣等等,可用來作為分析的大型資料庫,主要是健保開辦前的勞保門診與勞保住院資料、癌症登記檔、死亡檔,也有研究採用健檢診所的會員資料。綜觀以上的資料,有其優勢,但研究限制也不少,樣本的代表性是主要的問題。

 

但健保資料庫經由國家衛生研究院的整理並釋出後,全國性的抽樣資料,或全國性的特定族群資料,可依循合法的申請管道取得,這些代表全國性的資料,不僅量大,亦可解決流行病學上的選樣偏差問題,由於完整記錄病人的就醫記錄,包括疾病診斷代碼以及醫令代碼,儼然是最佳的藥物流行病學的分析材料,除非病人自費就醫。由於是全國性的資料,在國際間自有一定的學術價值,但學者抨擊之處所為何來?

 

健保資料庫最大的特徵是病人就醫的費用申報檔,無論病因是否正確,為了通過健保費用申報的相關規定,有部份代碼並非確實申報,甚至與疾病本身無關;有些病人還在檢查階段、尚未確診,卻以疑似病因登錄。過去賴美淑教授依據健保資料庫進行糖尿病診斷的正確性(validation)研究,發現當每一筆診斷皆納入研究,正確性約七成,若將前2次診斷當作是因檢查而登錄,留下了3次以上的就醫記錄,正確性提高至八成以上,若以是否使用降血糖藥作為判斷依據,正確性提高至九成以上。因此作了一些定義後,正確性將逐步提高,但不可否認的,誤歸類(misclassification)的比例仍高達一成。有些重大疾病可藉由串聯重大傷病檔以作為確認,但早期重大傷病卡的申請率非100%,卻造成研究個案數的低估。此外,在存活分析研究中,死亡的個案,除了因重大傷病死亡、院內死亡,其他院外之種種死因無法被記錄,在分析上是一大限制。

 

而一般研究在資料庫中所引用的人口學變項,不外乎性別、年齡、以投保單位所在地代表工作與生活地區的都市化程度、以投保薪資代表收入高低、有無工作、是否低收入戶等,大家很快就可提出這些項目在資料庫中的問題所在,毋庸贅述。更何況比前述更重要的生活習慣(例如抽菸、運動、飲食等)與各種檢驗值,都不在這個資料庫中。因此過去的研究以特定的共病或共病指標(例如Charlson Comorbidity Index; CCI)代替不良生活習慣可能導致的疾病,例如以發生肺部疾病代替抽菸習慣,但兩者的關聯有些牽強,因此,在健保資料庫中,當為了解決一個問題,就可能衍生另一個錯誤分組的機會。

 

此外,資料處理的軟體與技巧是進行健保資料庫分析時相當大的門檻,資料處理軟體必需能容納中型以上的資料庫,例如SQL(Structural Query Language; 結構式查詢語言)SAS統計軟體、或者資料採礦軟體等。此外程式撰寫能力的熟練度,程式邏輯的正確性,都決定了資料處理的結果,以及研究品質。若徒有程式撰寫能力,卻不諳資料庫結構,而做出錯誤的資料處理程序,亦是枉然。

 

總結以上描述,健保資料庫在資料分析與變項定義上,有許多的限制,不當的處理會造成流行病學上的誤歸類,或者風險的高估或低估,而適當的軟體以及熟練的程式撰寫能力亦是資料處理過程中不可或缺的要素,以降低產生錯誤結果的風險。

 

無論是採取回溯性研究(Retrospective cohort study)或巢式病例對照研究(Nested Case-control Study),健保資料庫分析在方法學上屬於長期追蹤型研究(Longitudinal study),因此一篇優良的觀察型研究,不外乎的幾點因素:合適的對照組、干擾因子的控制、降低選樣偏差、避免錯誤分組等,以上各項因素在健保資料庫中都是不好控制的,因此目前以健保資料庫作為研究題材的論文素質良莠不齊,為學術界所垢病。

 

那麼,既然健保資料庫有這麼多研究限制,是否乾脆放棄,不再從事這類型的研究?健保資料庫是國際間難能可貴且絕無僅有的資料庫,若能嚴謹定義各個變項,正確完成每個操作步驟,甚至提出創新的研究方法,在學術上仍是有相當的參考價值。目前衛生福利部的『健康資料加值應用協作中心』(簡稱加值中心)已開放健保資料庫與各個學術單位的資料串檔,無論是臨床的檢驗數據、問卷資料、環境採樣、氣候、交通、勞工、財經等各個領域的資料,只要通過IRB與加值中心的審核,即可申請串檔,如此即可提供一部份控制干擾因子的重要訊息。若能與加值中心的死亡檔、癌症登記檔串檔,更可明確得知病人死亡與罹癌情形,不至於對死亡或癌症診斷作出誤歸類。

 

過去已有學者發展出控制大型資料的干擾因子之方法二階段抽樣方法(two-stage sampling approach),也應用在不同領域的流行病學研究中,本公司的部落格曾作過簡介http://bit.ly/1SRIGuW)。若要應用在健保資料庫的分析,仍離不開需要可以控制干擾因子的問卷資料或臨床資料,以控制干擾因子。第一階段是指較大的世代資料所推估的健康風險指標,可以是研究所收集來的世代資料,或來自政府部門的次級資料所建立的風險指標,由於研究個案數多,無法透過問卷取得所有人的生活習慣(例如抽菸、喝酒、運動、BMI等資料)等資料,因此能校正的干擾因子有限。第二階段的樣本來自第一階段中的部份抽樣,當樣本數估算出來後,若研究主題為常見疾病,可採取隨機取樣方式,若為罕見疾病(例如癌症),必須採取平衡設計(Balance design(Breslow NE,1988),即先決定研究世代罹患所關心之疾病的樣本數,再將其餘樣本數平均分給其他狀況,如下表所示,這是最有效率的收案方式。

 

 二階段抽樣1  

1 平衡設計

 

由以下的圖可知,第二階段除了第一階段所能控制的干擾因子,還多出了生活習慣等因子,於是將第二階段估計的結果與第一階段估計的結果綜合起來,重新計算綜合後的風險估計值,藉此取得控制所有干擾因子後的風險估計值,進而達到控制干擾因子的目的。

 

 二階段抽樣2  

2 二階段抽樣方法之範例(製作:以斯帖統計)

 

任何型態的研究,都有研究上的限制,若能嚴謹定義健保資料庫中的每個研究變項,並儘可能降低流行病學上的各種偏誤(bias),健保資料庫分析的結果,仍具有學術上的參考價值,若能提出更多控制干擾因子的方法,或提出創新的研究思維,屬於台灣人獨有的健保資料庫之巨量資料研究,仍是彌足珍貴的,且為國際間所羨慕。

arrow
arrow
    創作者介紹
    創作者 estat 的頭像
    estat

    以斯帖統計顧問公司

    estat 發表在 痞客邦 留言(0) 人氣()