Model Scoring

Chấm điểm dữ liệu sử dụng kết quả mô hình

Mục lục

Model scoring là công việc chấm điểm (tính toán output) cho dữ liệu liệu mới sử dụng kết quả của mô hình đã xây dựng. Các bước tính toán khi chấm điểm như sau:

  1. Dữ liệu đầu vào (data score) cần chứa đầy đủ các biến của mô hình.
  2. Từ kết quả binning từ trước (kết quả mapping), tính toán các biến dưới dạng group và woe tương ứng với mỗi biến.
  3. Tính score bằng công thức

\[Score=Logistic\left(\sum_{i=0}^n WoeX_i \times \beta_i\right)\]

trong đó \(WoeX_0 =1\) và \(\beta_i\) là hệ số chặn (intercept). Các biến dưới dạng WOE \(WoeX_1, WoeX_2, …, WoeX_n\) và hệ số tương ứng \(\beta_1, \beta_2, …, \beta_n\).

Sử dụng Macro

Cú pháp

Cú pháp của Macro như sau:

%Model_scoring(ds_score, ds_out, ds_mapping, ds_param, varlist);

Trong đó:

  • ds_score (dataset) là dữ liệu cần chấm điểm.

  • ds_out (dataset) là dữ liệu đầu ra. Dữ liệu đầu ra sẽ chứa các biến trong varlist, các biến dạng Group, WOE và Score.

  • ds_mapping (dataset) là dữ liệu lưu thông tin mapping của cả dạng Group và WoE. Dữ liệu là kết quả đầu ra của Macro Variable Transformation.

Fmtname Start End Label Type Sexcl Eexcl Hlo
X2F . . [01] Missing N N N  
X2F Low -0.9841 [02] (-Inf, -0.9841] N N N L
X2F -0.9841 -0.8588 [03] (-0.9841, -0.8588] N Y N  
X2F -0.8588 -0.5849 [04] (-0.8588, -0.5849] N Y N  
X2F -0.5849 -0.0563 [05] (-0.5849, -0.0563] N Y N  
X2F -0.0563 0.9544 [06] (-0.0563, 0.9544] N Y N  
X2F 0.9544 High [07] (0.9544 , +Inf) N Y N H
  • ds_param (dataset) là dữ liệu lưu thông tin các hệ số. Dữ liệu là kết quả đầu ra của Macro Dữ liệu là kết quả đầu ra của Macro Model Regression. Ví dụ về dữ liệu như dưới đây:
_Name_ _Type_ Intercept WOE_X1 WOE_X2 WOE_X3 WOE_X4 WOE_X5
Estimate Parms 0.01675 0.9202 0.7971 0.8608 0.8727 0.9028
  • Varlist (danh sách biến) là danh sách các biến trong mô hình.

Detail

Output

Kết quả đầu ra của macro là ds_out (dataset) chứa các biến trong varlist, các biến dạng Group, WOE và Score.

Example

Ví dụ về cách sử dụng Macro

%Model_scoring(ds_mapping=data.train_mapping,
  ds_param=data.model_reg_param,
  ds_score=data.outtime,
  ds_out=ds_out,
  varlist=x1 x2 x3 x4 x5  x6 x8)