Mục lục
Định nghĩa
Marginal IV
Ta định nghĩa mô hình \(M_k\) với kết quả đầu ra: \(P_i (Good)=(y_{k,i})\). Xét biến X được chia thành các nhóm \(1,2,…,n\). Với mỗi nhóm, ta định nghĩa \(\Delta WoE\) như sau:
\[\Delta WoE=WoE_{obs}-WoE_{exp}=\ln\left(\frac{G_{obs}/TotalG_{obs}}{B_{obs}/TotalB_{obs}}\right)-\ln\left(\frac{G_{exp}/TotalG_{exp}}{B_{exp}/TotalB_{exp}}\right).\]
Trong đó:
- \(G_{obs},B_{obs}\) là số lượng quan sát good, số lượng quan sát bad trong nhóm.
- \(G_{exp},B_{exp}\) là tổng xác xuất dự báo good, tổng xác suất dự báo bad trong nhóm.
Công thức tính Marginal IV của biến được cho như sau:
\[MIV=\sum_{i=1}^n \left(\%G_{obs}-\%B_{obs} \right)\times \Delta WoE.\]
Minh họa công thức tính được cho trong bảng dưới đây:
Group | Good (obs) | Bad (obs) | WoE (obs) | Good (exp) | Bad (exp) | WoE (exp) | Delta WoE | Marginal IV |
---|---|---|---|---|---|---|---|---|
1 | 2785 | 902 | -0.853 | 3240 | 447 | 0 | -0.853 | 0.067 |
2 | 8053 | 1881 | -0.526 | 8729 | 1205 | 0 | -0.526 | 0.062 |
3 | 6820 | 1028 | -0.088 | 6896 | 952 | 0 | -0.088 | 0.001 |
4 | 29726 | 2732 | 0.407 | 28521 | 3937 | 0 | 0.407 | 0.085 |
Sum | 47384 | 6543 | 47386 | 6541 | 0.216 |
Lưu ý rằng, với model chỉ có intercept thì công thức Marginal IV cho kết quả trùng với IV.
Thuật toán lựa chọn biến dựa trên MIV
Dựa trên khái niệm Marginal IV, thuật toán chọn biến dựa trên Marginal IV được đề xuất như sau:
- Xếp các biến theo thứ tự marginal IV giảm dần.
- Chọn biến có Marginal IV lớn nhất vào mô hình và ước tính hệ số. Từ đó tính ra các kết quả dự báo của mô hình.
- Tính lại Marginal IV của các biến (chú ý rằng, Marginal IV của biến đã vào mô hình bằng 0).
- Tiếp tục các bước từ 1 đến 3 cho đến khi không còn biến nào có Marginal IV đủ lớn (có thể chọn điểm cắt MIV>0.01)
Minh họa cho kết quả chọn biến sử dụng Marginal IV được cho trong bảng dưới đây:
Sử dụng macro
Syntax
Cú pháp của Macro như sau:
%Varselect_marIV (data=, WOE_varlist=, IV_entry=0.02, corr=0.7)
Trong đó:
- data (data) là dữ liệu đầu vào.
- WOE_varlist (list of variables) là danh sách các biến ở định dạng WOE. Macro sẽ chọn biến từ danh sách các biến này.
- IV_entry (float) điểm cắt marginal IV. Chỉ các biến có marginal IV lớn hơn ngưỡng này mới được chọn vào mô hình.
- corr (float) điểm cắt correlation. Chỉ các biến có correlation với các biến đã vào mô hình nhỏ hơn ngưỡng này mới được chọn và mô hình.
Detail
Output
Kết quả đầu ra của mô hình như sau:
- Bảng kết quả lựa chọn biến thể hiện biến vào mô hình tại mỗi bước và Marginal IV của các biến tại bước đó. Bàng này chỉ hiển thị các biến vào mô hình cuối cùng.
- Bảng Summary thể hiện đầy đủ Marginal IV của các biến tại các bước (các cột STEP1-…).
Variable | ID | Step1 | Step2 | Step3 | Step4 | … |
---|---|---|---|---|---|---|
WOE_X1_1 | 1 | 0.24 | 0.13 | 0.09 | 0.08 | … |
WOE_X1_2 | 2 | 0.22 | 0.11 | 0.07 | 0.06 | … |
WOE_X1_3 | 3 | 0.13 | 0.07 | 0.05 | 0.04 | … |
WOE_X1_4 | 4 | 0.13 | 0.06 | 0.05 | 0.04 | … |
WOE_X2_1 | 5 | 0.16 | 0.06 | 0.03 | 0.01 | … |
… | … | … | … | … | … | … |
- Bảng Selections_summary thể hiện Gini của mô hình và số lượng các biến có hệ số ước lượng là âm tại mỗi bước.
Step | Effectentered | Gini | Num_neg |
---|---|---|---|
1 | WOE_X4_4 | 66.11% | 0 |
2 | WOE_X7_14 | 71.47% | 0 |
3 | WOE_X2_5 | 74.65% | 0 |
4 | WOE_X4_11 | 75.22% | 0 |
5 | WOE_X4_7 | 75.43% | 0 |
… | … | … | … |
- Bảng Selected_variable chứa danh sách các biến được chọn vào mô hình (theo thứ tự).
Variable |
---|
WOE_X1_1 |
WOE_X1_2 |
WOE_X1_3 |
WOE_X1_4 |
WOE_X2_1 |
… |
Example
Ví dụ về chọn biến sử dụng Marginal IV:
%Varselect_marIV (data=data.model2,
WOE_varlist=WOE_X1 WOE_X2 WOE_X3 WOE_X4 WOE_X5 WOE_X6 WOE_X7 WOE_X8 WOE_X9,
IV_entry=0.01,
corr=0.7);