在資料探勘(Data mining)領域中,決策樹(Decision Tree)和類神經網路(Artificial Neural Network),都是常見的方法。隨著電腦資訊科技的發展,大型資料的分析已成了必然的趨勢,而資料探勘即是將大型資料中,較具有代表性之變數萃取出的技術。例如在醫學研究上,對某種特定的疾病(糖尿病,代謝症候群等)找出可以前期篩檢分類,或是預測的因子時,就常以決策樹的方法來進行。如同類神經網路方法,在進行分析的過程中,通常也會先以建模資料建立模式,再將驗證資料代入建立完成的模式以確認其預測力高低。而決策樹較爲不同之處在於以圖像化來呈現結果,即使不了解背後理論,仍可解讀及下判斷。

 常見的決策樹分析方法有兩種:CART(Classification And Regression Tree)CHAID(Chi-squared Automatic Interaction Detection),其最大的差異在於CART可以處理連續或是類別型的變項,而CHAID僅能處理類別變項;所以如果連續型變項要使用CHAID方法,要先轉成類別型資料。進行決策樹分析要注意的是,當樣本數太少,類別太多時,不易正確分類。在實際執行上,統計分析軟體大多都有可進行決策樹分析的套件,如常見的SAS, R, SPSS.

Reference:
Hastie, T., Tibshirani, R., Friedman, J. H. (2001). The elements of statistical learning : Data mining, inference, and prediction. New York: Springer .
Rokach, Lior; Maimon, O. (2008). Data mining with decision trees: theory and applications. World Scientific Pub Co Inc.

arrow
arrow

    estat 發表在 痞客邦 留言(1) 人氣()