過去10年,學術界一窩蜂地以健保資料庫作為『省錢、省時、省力』的研究方法,由於過於浮濫的發表,有些學校已嚴格限制健保資料庫作為升等的題材,究竟這麼珍貴的資料庫,何以成為被學界所垢病的次級資料(secondary data),究竟這個領域的研究限制是什麼?而它獨步全球的優勢又是什麼?

 

在還未有健保資料庫之前,醫藥研究不外乎臨床試驗、在臨床或社區收問卷、收檢體、環境採樣等等,可用來作為分析的大型資料庫,主要是健保開辦前的勞保門診與勞保住院資料、癌症登記檔、死亡檔,也有研究採用健檢診所的會員資料。綜觀以上的資料,有其優勢,但研究限制也不少,樣本的代表性是主要的問題。

 

但健保資料庫經由國家衛生研究院的整理並釋出後,全國性的抽樣資料,或全國性的特定族群資料,可依循合法的申請管道取得,這些代表全國性的資料,不僅量大,亦可解決流行病學上的選樣偏差問題,由於完整記錄病人的就醫記錄,包括疾病診斷代碼以及醫令代碼,儼然是最佳的藥物流行病學的分析材料,除非病人自費就醫。由於是全國性的資料,在國際間自有一定的學術價值,但學者抨擊之處所為何來?

 

健保資料庫最大的特徵是病人就醫的費用申報檔,無論病因是否正確,為了通過健保費用申報的相關規定,有部份代碼並非確實申報,甚至與疾病本身無關;有些病人還在檢查階段、尚未確診,卻以疑似病因登錄。過去賴美淑教授依據健保資料庫進行糖尿病診斷的正確性(validation)研究,發現當每一筆診斷皆納入研究,正確性約七成,若將前2次診斷當作是因檢查而登錄,留下了3次以上的就醫記錄,正確性提高至八成以上,若以是否使用降血糖藥作為判斷依據,正確性提高至九成以上。因此作了一些定義後,正確性將逐步提高,但不可否認的,誤歸類(misclassification)的比例仍高達一成。有些重大疾病可藉由串聯重大傷病檔以作為確認,但早期重大傷病卡的申請率非100%,卻造成研究個案數的低估。此外,在存活分析研究中,死亡的個案,除了因重大傷病死亡、院內死亡,其他院外之種種死因無法被記錄,在分析上是一大限制。

 

而一般研究在資料庫中所引用的人口學變項,不外乎性別、年齡、以投保單位所在地代表工作與生活地區的都市化程度、以投保薪資代表收入高低、有無工作、是否低收入戶等,大家很快就可提出這些項目在資料庫中的問題所在,毋庸贅述。更何況比前述更重要的生活習慣(例如抽菸、運動、飲食等)與各種檢驗值,都不在這個資料庫中。因此過去的研究以特定的共病或共病指標(例如Charlson Comorbidity Index; CCI)代替不良生活習慣可能導致的疾病,例如以發生肺部疾病代替抽菸習慣,但兩者的關聯有些牽強,因此,在健保資料庫中,當為了解決一個問題,就可能衍生另一個錯誤分組的機會。

文章標籤

estat 發表在 痞客邦 留言(0) 人氣()