Kiểm định tính phân biệt

Kiểm định tính phân biệt của mô hình bằng các chỉ số Gini, K-S

Kiểm định tính phân biệt

Kiểm định tính phân biệt được sử dụng ở hầu hết các mô hình dự báo. Một mô hình là tốt nếu quan sát A “xấu” hơn quan sát B thì mô hình phải dự báo được rằng A “xấu” hơn B. Mục đích của kiểm định tính phân biệt là kiểm tra điều này. Một số kiểm định sau đây thường được áp dụng để kiếm tra tính phân biệt của mô hình.

Đánh giá thứ tự bad rate

Kiểm định này thường được thực hiện như sau:

  • Chia các dữ liệu thành các nhóm dựa trên kết quả đầu ra của mô hình. Cách chia thường dùng là đảm bảo số quan sát ở mỗi nhóm bằng nhau (quatile binning).
  • Sắp xếp theo thứ tự các nhóm từ xấu đến tốt theo kết quả đầu ra và tính số lượng good, bad trong mỗi nhóm. Từ đó tính được bad rate của mỗi nhóm.
  • Vẽ đồ thị thể hiện Bad rate trong từng nhóm.

Ví dụ được cho trong hình sau:

Marginal IV Result

Đường cong ROC và hệ số Gini

Từ kết quả tính toán good và bad trong mỗi nhóm, ta tính toán tỷ lệ luỹ kế good (%Cum Good) và tỷ lệ luỹ kế bad (%Cum Bad). Minh hoạ được cho ở bảng sau:

Group #Good #Bad %CumB/Total Bad %CumG/Total Good
B01 4616 2247 30.98 8.32
B02 5904 1303 48.95 18.96
B03 6427 1369 67.82 30.55
B04 5648 685 77.26 40.73
B05 5231 451 83.48 50.16
B06 5000 369 88.57 59.17
B07 5200 288 92.54 68.54
B08 5467 251 96 78.4
B09 5721 171 98.36 88.71
B10 6265 119 100 100

Đường cong roc (Receiver operating characteristic) được tạo bởi hai cột, cột x là %Cum Good và cột y là %Cum Bad.

Marginal IV Result

Hệ số Gini được tính là hai lần phần diện tích được giới hạn bởi Roc curve của model và đường chéo nối điểm \((0;0)\) và \((1;1)\). Công thức tính Gini như sau:

\[Gini=1-\sum_{i=0}^{n-1} \left(\%CumBad_{i+1} + \%CumBad_i\right)\left(\%CumGood_{i+1} - \%CumGood_i\right)\]

Với \(\%CumBad_0=\%CumGood_0=0\).

Hệ số Gini nằm trong khoảng giá trị \([−1;1]\). Nhìn chung, hệ số Gini càng lớn thì mô hình càng tốt. Một hệ số khác tương tự hệ số Gini là Sommers’D được tính như sau:

\[Sommers’D=\frac{n_c-n_d}{t}\]

Trong đó:

  • \(n_c\) (số lượng concordant) là số lượng các cặp \((\widehat{y_i}, y_i)\) và \((\widehat{y_j}, y_j)\) mà \(\widehat{y_i}> \widehat{y_j}\) và \(y_i>y_j\) hoặc \(\widehat{y_i}< \widehat{y_j}\) và \(y_i<y_j\).
  • \(n_d\) (số lượng discordant) là số lượng các cặp \((\widehat{y_i}, y_i)\) và \((\widehat{y_j}, y_j)\) mà \(\widehat{y_i}> \widehat{y_j}\) và \(y_i<y_j\) hoặc \(\widehat{y_i}< \widehat{y_j}\) và \(y_i>y_j\).
  • \(t\) là số lượng các cặp \(y_i\) và \(y_j\) mà \(y_i \not= y_j\).

Hệ số K-S

Hệ số K-S đo lường sự khác biệt lớn nhất giữa phân phối tích luỹ của quan sát good và bad. Công thức tính K-S như sau:

\[K-S=max(\%CumBad_i - \%CumGood_i)\]


Overview
Data Step
Data Aggregation
Data Visualization
Proc SQL
Variable Analysis
Macro
Model Regression
Variable Selection
Model Assessment