分類演算法
CART ( Classififcation and regression tree ) 每個節點分成兩條分支,每一分支 資料量低 且 同質性高 (更pure),purity 通常是最大正確化 or 極小分類錯誤率,然而正確性愈高不代表達到 purity 的目的(若分枝條件範圍訂的愈細,可達最高正確率 ex.100筆data,設定99條分枝條件達100%分類,樹狀圖卻顯得過於繁雜且龐大) 使用 Gini Index : 1-p1^2-p2^2 Gini小者表該attribute較適合作為node條件。∆info(資訊獲利):父節點分割前的不純度與子節點分割後的不純度差異,愈大者挑選為策是條件 Greedy algorithm Decision Tree Model 進行節點切割,從某點開始尋找最佳化解答,且以當下節點 (node) 進行最佳化分析,切割 (split) 完後產生新節點,不再回頭更改之前產生node的決策 Tree-based model 優點 模型建置容易,且易於理解 模型的邏輯特性,能有效處理各種型態變數(數值型/名目型),無須進行變數的清理或轉換( pre-process ) 有效處理 missing data(NA) /how?是指有許多impute missing value的方法?/ ,自動進行篩選變數(feature selection),在許多實際建模問題中為一實用功能 注意 : 建模時隱含 feature selection ,然而若原有兩個 predictors 是重要且高度相關,tree model 選擇時採隨機方式作為 split 變數,則兩變數相關性會弱化 Selection bias : Tree model 決定split變數時頃向選取有較多不一樣數值(distinct value)的變數 ...