Mục lục
Hồi quy mô hình Logistic
Hồi quy mô hình Logistic là một kỹ thuật thống kê phổ biến được sử dụng để phát triển thẻ điểm trong hầu hết các ứng dụng của ngành tài chính để xem xét mối quan hệ giữa biến độc lập với biến phụ thuộc, trong đó biến dự đoán (biến phụ thuộc) là nhị phân (tốt/xấu). Hồi quy logistic, giống như hầu hết các phương pháp lập mô hình dự đoán khác, sử dụng một tập hợp các đặc điểm dự đoán để dự đoán khả năng (xác suất) của một kết quả cụ thể (mục tiêu). Nếu gọi p là xác suất để một sự kiện xảy ra (ví dụ: vỡ nợ), thì 1-p là xác suất để sự kiện không xảy ra (ví dụ: không vỡ nợ). Phương trình hồi quy Logistic phát biểu:
\[ Logit (p)=beta_0+Factor\times \beta_1+Factor\times \beta_2 \]
Scorecard
Nguyên nhân
Kết quả đầu ra của mô hình logistic được cho dưới dạng: \[\hat{y_i} =\frac{1}{1+exp(-\beta x_i)}\]
Công thức như trên có một số nhược điểm như sau:
- Công thức của logistic đôi khi không thể implement trên các hệ thống do các hệ thống thiếu function.
- Mô hình cần đưa ra kết quả đơn giản để đơn vị kinh doanh có thể hiểu được.
- Với mô hình xếp hạng thì output không nhất thiết phải là xác suất mà chỉ cần thể hiện khách hàng A là tốt hơn hay xấu hơn khách hàng B.
- Cần đưa ra kết quả để có thể hiểu được nhóm nào của biến nào ảnh hưởng lớn nhất đến điểm của khách hàng
Do đó, mô hình hồi quy logistic thường được trình bày dưới dạng scorecard để tiện cho việc sử dụng.
Lý thuyết
Vì \(f(t)=\frac{1}{1+exp(-t)}\) là hàm đồng biến nên:
\[f(t_A)>f(t_B) \Leftrightarrow t_A>t_B.\]
Trong đó
\[
begin{align*}
t &=ln(odd)
&=\beta_0+\beta_1 woe_{x_1}+\beta_2 woe_{x_2}+\cdots+\beta_n woe_{x_n}end{align}
\]
Do đó, để xếp hạng khách hàng thì chỉ cần dùng \(ln(odd)\). Cách thức biến đổi như sau:
\[
Score &=Offset+Factor\times ln(odds)
&=Offset+Factor\times\left(\beta_0+\sum_{i=1}^n \beta_i woe_{x_i}\right)
&=\sum_{i=1}^n \left(\frac{Offset}{n}+Factor\times \left(\frac{\beta_0}{n}+\beta_i woe_{x_i}\right)\right)
\]
Điểm của nhóm \(j\) của biến \(x_i\) sẽ là:
\[ \frac{Offset}{n}+Factor\times \left(\frac{\beta_0}{n}+\beta_i woe_{x_i}\right) \] Chú ý:
- Giá trị thường dùng là Offset=383 và Factor=144.27
- Để cho đơn giản khi tính toán, có thể tách riêng Intercept(\(\beta_0\)).
Scorecard Report
Final Scorecard Report được cho trong ví dụ dưới đây
Variable | Attribute | WOE | Parameter | Score |
---|---|---|---|---|
Variable 1 | LOW-16600 | -1.059 | 0.5435 | -83 |
16600-22500 | -0.468 | -37 | ||
22500-84500 | -0.004 | 0 | ||
84500+ | 0.565 | 44 | ||
Variable 2 | 0 | 0.104 | 0.6831 | 10 |
0-1 | -0.209 | -21 | ||
44198 | -0.317 | -31 | ||
44232 | -0.694 | -68 | ||
5+ | -0.929 | -92 | ||
Variable 3 | Apple | 0.597 | 0.6831 | 49 |
Others | -0.354 | -29 | ||
Samsung, Sony | 0.17 | 14 |
Trong bảng bên, Score được tính theo công thức
\[ Score=WOE\times Param\times Factor \] Trong đó Factor=144.27. Intercept được đặt riêng và tính bằng công thức:
\[ Intercept=Offset+Factor\times \beta_0 \]
Trong đó Offset=383
Từ scoredcard cuối cùng cần chú ý các vấn đề như sau:
- Các nhóm của biến cộng điểm và trừ điểm nhiều nhất cho khách hàng. Từ đó đánh giá tác động của biến đến mô hình.
- Kiểm tra logic giữa điểm và badrate. Điểm càng cao thì bad rate trong nhóm phải càng thấp.
- Có thể chuyển score của các nhóm thành các giá trị lớn hơn 0 (bằng cách cộng tất cả với giá trị nhỏ nhất) để tiện so sánh trọng số.
Sử dụng Macro
Sau khi đã chọn được bộ biến thích hợp ta tiến hành hồi quy mô hình logictic. Sử dụng Macro %Model_regression
%Model_regression (ds_train, ds_valid, ds_mapping, varlist);
Trong đó:
-
ds_train (dataset) là dữ liệu đầu vào (Train). Dữ liệu đầu ra sẽ chứa các biến trong varlist, các biến dạng WOE.
-
ds_valid (dataset) là dữ liệu đầu vào (Validate).
-
ds_mapping (dataset) là dữ liệu lưu thông tin mapping của cả dạng Group và WoE. Dữ liệu là kết quả đầu ra của Macro Variable Transformation.
-
varlist (dataset) là danh sách các biến vào mô hình.