一、研究設計
健保資料庫的研究設計主要為回溯型世代研究(Retrospective cohort study),研究者提出資料申請時,研究世代已存在於健保資料庫中,因此所作的研究為回溯型的研究。利用健保資料所進行的Case-control study (病例對照研究),可進一步定義為Nested case-control study(巢式病例對照研究),當研究者以特定的病例(Case)配對一定比例的對照組(control),病例組與對照組來自相同的世代,且這世代早已存在於保存完善的資料庫中,故可稱為Nested case-control study。
在健保資料庫中,配對(matching)是常見的控制干擾因子的方式,配對的時間點若是暴露開始時間(例如給藥開始時間、開始接受心理治療時間、剛診斷為憂鬱症時間…等),在研究設計上屬於世代研究法(cohort study),研究者將回溯到病人暴露開始的時間點,再繼續追蹤病人後續的病情變化(康復、復發、死亡,或發生不良反應等),以探討暴露對疾病發展的影響。在有暴露組與非暴露組的情況下,可以建立暴露風險指標,以比較兩組的相對風險。較常使用的風險指標包括:直接標準化率比 (Standardized Rate Ratio; SRR)、間接標準化發生比(Standardized Incidence Ratio; SIR)、間接標準化死亡比(Standardized Mortality Ratio; SMR)、風險比值(Hazard Ratio; HR)、相對危險比值(Relative Ratio; RR)等。
健保資料庫的回溯性世代研究
若配對的時間點為特定疾病發生的時間,且研究者對過去的病史、或病人曾服用的藥物、接受的治療,或病人的就醫行為或遵醫囑性感興趣,而探討過去的暴露與疾病的關聯性,可採用Case-control study進行資料分析。資料若以病例組的每個個案各別配對n 個對照組,通常所採用的統計分析方法為條件式羅吉斯回歸(Conditional logistic regression ),若是以配對條件的分佈比例進行頻率配對,則以一般的羅吉斯回歸(logistic regression )進行統計分析,風險評估的指標為勝算比(Odds Ratio; OR)。
在比較性研究中,對照組的建立是必要的,以瞭解過去的暴露資料(過去的病史、或病人曾服用的藥物、接受的治療,或病人的就醫行為或遵醫囑性)與疾病間的相關。在配對過程可以將可能影響觀察結果的干擾因子當配對變項,一般的配對條件會考慮性別、年齡、發病時間。
亦可考慮以Propensity score(傾向分數) (介於0-1)作為配對條件,利用該值小數位數第1~8位數的數值配對出對照組,未配對到對照組的病例,再將配對的小數位數縮減為第1~7位數,直到所有可能的病例組皆能配對到合適之對照組。其方法係將年齡、性別、患者社經地位、醫院層級(醫學中心、….診所)、就醫科別、疾病嚴重度、或就醫年份置入羅吉斯回歸(logistic regression)模式中,即可得到所有研究個案的 Propensity score,該分數係指控制所有干擾因子後的發病機率(在世代研究中為暴露機率)。該方法被視為更有效率的配對,能更有效地控制干擾因子,因此這種配對方法稱為Propensity score matching (PSM)。雖然PSM可以放入許多變項,但不能沒有限制地把所有可能的干擾因子全放入模式中,特別是與暴露因子相關的變項,以免過度配對(over matching),例如想研究女護士發生乳癌的風險,卻將輪值大夜當成配對條件,而忽略了輪值大夜對女護士發生乳癌的影響,因為輪值大夜與女護士間是有關聯的。
健保資料庫的巢式病例對照研究(Nested case-control study)
配對在資料分析時可作為控制干擾因子的方法,此外,配對在比較分析中幾乎是必然的步驟,若非暴露組或對照組的樣本數太大,很容易造成統計上的相關,但未必是真正的相關。在統計上一般認為暴露組相對於非暴露組,或病例組相對於控制組的個案數比例在1:4的情況下,統計的上的檢定強度(power)是最佳的,但是這並非唯一的標準,究竟對照組或非暴露組需要以多少比值選出,仍應回歸統計的樣本數估計或強度的估計。當研究的主題為罕見疾病,在1:4的比例情況下,強度可能不夠;同樣地,當研究的主題為常見疾病,在1:4的比例情況下,強度勢必足夠,但統計檢定的結果很容易達到統計上的顯著,而統計上的顯著性能否解釋臨床的的現象,可能有待商榷。在計畫開始前必須考慮清楚。
二、健保資料庫的研究限制
健保資料庫之最大研究限制為無法取得實驗室數據、身體功能評估結果,以取得更多診斷數據以定義疾病嚴重度。亦欠缺患者過去家族史、病史、影響健康之風險行為等資料,以控制干擾因素(confounding factors)的影響,特別是遺傳基因與吸菸行為的影響。社經地位中雖以健保承保人之投保薪資代替納保人的收入,然而僱主在申報健保時可能在薪資等級上多付低報,或低付多報的情形,與實際收入有落差。再者,健保資料庫的建立是為了健保費用的申報與核准,疾病的國際疾病分類碼是否正確與完整,資料登入人員輸入過程是否正確與完整,疾病代碼所意涵的是檢驗而已或已確診,這些是資料處理階段通常會面臨的問題,以上皆顯示健保資料庫的正確性(validation)與完整性(completeness)的重要,因為關乎資料是否錯誤分組(misclassification),進而影響評估結果。此外,自費病人資料無法列入評估,亦可能影響評估結果。
留言列表