Variable Selection Marginal IV Method

Phương pháp chọn biến dựa trên phương pháp Marginal IV

Mục lục

Định nghĩa

Marginal IV

Ta định nghĩa mô hình \(M_k\) với kết quả đầu ra: \(P_i (Good)=(y_{k,i})\). Xét biến X được chia thành các nhóm \(1,2,…,n\). Với mỗi nhóm, ta định nghĩa \(\Delta WoE\) như sau:

\[\Delta WoE=WoE_{obs}-WoE_{exp}=\ln\left(\frac{G_{obs}/TotalG_{obs}}{B_{obs}/TotalB_{obs}}\right)-\ln\left(\frac{G_{exp}/TotalG_{exp}}{B_{exp}/TotalB_{exp}}\right).\]

Trong đó:

  • \(G_{obs},B_{obs}\) là số lượng quan sát good, số lượng quan sát bad trong nhóm.
  • \(G_{exp},B_{exp}\) là tổng xác xuất dự báo good, tổng xác suất dự báo bad trong nhóm.

Công thức tính Marginal IV của biến được cho như sau:

\[MIV=\sum_{i=1}^n \left(\%G_{obs}-\%B_{obs} \right)\times \Delta WoE.\]

Minh họa công thức tính được cho trong bảng dưới đây:

Group Good (obs) Bad (obs) WoE (obs) Good (exp) Bad (exp) WoE (exp) Delta WoE Marginal IV
1 2785 902 -0.853 3240 447 0 -0.853 0.067
2 8053 1881 -0.526 8729 1205 0 -0.526 0.062
3 6820 1028 -0.088 6896 952 0 -0.088 0.001
4 29726 2732 0.407 28521 3937 0 0.407 0.085
Sum 47384 6543   47386 6541     0.216

Lưu ý rằng, với model chỉ có intercept thì công thức Marginal IV cho kết quả trùng với IV.

Thuật toán lựa chọn biến dựa trên MIV

Dựa trên khái niệm Marginal IV, thuật toán chọn biến dựa trên Marginal IV được đề xuất như sau:

  1. Xếp các biến theo thứ tự marginal IV giảm dần.
  2. Chọn biến có Marginal IV lớn nhất vào mô hình và ước tính hệ số. Từ đó tính ra các kết quả dự báo của mô hình.
  3. Tính lại Marginal IV của các biến (chú ý rằng, Marginal IV của biến đã vào mô hình bằng 0).
  4. Tiếp tục các bước từ 1 đến 3 cho đến khi không còn biến nào có Marginal IV đủ lớn (có thể chọn điểm cắt MIV>0.01)

Minh họa cho kết quả chọn biến sử dụng Marginal IV được cho trong bảng dưới đây:

Marginal IV Result

Sử dụng macro

Syntax

Cú pháp của Macro như sau:

%Varselect_marIV (data=, WOE_varlist=, IV_entry=0.02, corr=0.7)

Trong đó:

  • data (data) là dữ liệu đầu vào.
  • WOE_varlist (list of variables) là danh sách các biến ở định dạng WOE. Macro sẽ chọn biến từ danh sách các biến này.
  • IV_entry (float) điểm cắt marginal IV. Chỉ các biến có marginal IV lớn hơn ngưỡng này mới được chọn vào mô hình.
  • corr (float) điểm cắt correlation. Chỉ các biến có correlation với các biến đã vào mô hình nhỏ hơn ngưỡng này mới được chọn và mô hình.

Detail

Output

Kết quả đầu ra của mô hình như sau:

  • Bảng kết quả lựa chọn biến thể hiện biến vào mô hình tại mỗi bước và Marginal IV của các biến tại bước đó. Bàng này chỉ hiển thị các biến vào mô hình cuối cùng.
Marginal IV Result
  • Bảng Summary thể hiện đầy đủ Marginal IV của các biến tại các bước (các cột STEP1-…).
Variable ID Step1 Step2 Step3 Step4
WOE_X1_1 1 0.24 0.13 0.09 0.08
WOE_X1_2 2 0.22 0.11 0.07 0.06
WOE_X1_3 3 0.13 0.07 0.05 0.04
WOE_X1_4 4 0.13 0.06 0.05 0.04
WOE_X2_1 5 0.16 0.06 0.03 0.01
  • Bảng Selections_summary thể hiện Gini của mô hình và số lượng các biến có hệ số ước lượng là âm tại mỗi bước.
Step Effectentered Gini Num_neg
1 WOE_X4_4 66.11% 0
2 WOE_X7_14 71.47% 0
3 WOE_X2_5 74.65% 0
4 WOE_X4_11 75.22% 0
5 WOE_X4_7 75.43% 0
  • Bảng Selected_variable chứa danh sách các biến được chọn vào mô hình (theo thứ tự).
Variable
WOE_X1_1
WOE_X1_2
WOE_X1_3
WOE_X1_4
WOE_X2_1

Example

Ví dụ về chọn biến sử dụng Marginal IV:

%Varselect_marIV (data=data.model2, 
  WOE_varlist=WOE_X1 WOE_X2 WOE_X3 WOE_X4 WOE_X5 WOE_X6 WOE_X7 WOE_X8 WOE_X9, 
  IV_entry=0.01, 
  corr=0.7);