淺談決策樹(Decision Tree)統計分析方法 @ 以斯帖統計顧問公司

　　在資料探勘(Data mining)領域中，決策樹(Decision Tree)和類神經網路(Artificial Neural Network)，都是常見的方法。隨著電腦資訊科技的發展，大型資料的分析已成了必然的趨勢，而資料探勘即是將大型資料中，較具有代表性之變數萃取出的技術。例如在醫學研究上，對某種特定的疾病(糖尿病，代謝症候群等)找出可以前期篩檢分類，或是預測的因子時，就常以決策樹的方法來進行。如同類神經網路方法，在進行分析的過程中，通常也會先以建模資料建立模式，再將驗證資料代入建立完成的模式以確認其預測力高低。而決策樹較爲不同之處在於以圖像化來呈現結果，即使不了解背後理論，仍可解讀及下判斷。

　常見的決策樹分析方法有兩種：CART(Classification And Regression Tree)及CHAID(Chi-squared Automatic Interaction Detection)，其最大的差異在於CART可以處理連續或是類別型的變項，而CHAID僅能處理類別變項；所以如果連續型變項要使用CHAID方法，要先轉成類別型資料。進行決策樹分析要注意的是，當樣本數太少，類別太多時，不易正確分類。在實際執行上，統計分析軟體大多都有可進行決策樹分析的套件，如常見的SAS, R, SPSS等.

Reference:
Hastie, T., Tibshirani, R., Friedman, J. H. (2001). The elements of statistical learning : Data mining, inference, and prediction. New York: Springer .
Rokach, Lior; Maimon, O. (2008). Data mining with decision trees: theory and applications. World Scientific Pub Co Inc.