Logistic Regression

Xây dựng mô hình Logistic bằng SAS

Mục lục

Overview

Trong SAS, chúng ta có thể sử dụng thủ tục proc logistic để xây dựng mô hình hồi quy logistic. Thủ tục này cho phép ta ước lượng các tham số và giá trị dự đoán của biến phụ thuộc nhị phân (binary dependent variable) dựa trên các biến đầu vào.

Cú pháp chung của câu lệnh proc logistic như sau:

proc logistic data=dataset;
  model binary_dependent_variable = independent_variable_1 independent_variable_2 ... / selection options;
run;

Trong đó:

  • dataset là tên bộ dữ liệu mà ta muốn sử dụng để xây dựng mô hình.
  • binary_dependent_variable là biến phụ thuộc trong mô hình, có giá trị nhị phân (0 hoặc 1).
  • independent_variable_1, independent_variable_2,… là danh sách các biến đầu vào trong mô hình.
  • selection options là tùy chọn để điều chỉnh việc lựa chọn các biến trong mô hình, ví dụ như backward, forward, stepwise,…

Sau khi chạy câu lệnh proc logistic, SAS sẽ hiển thị kết quả về các tham số, thông tin về mô hình (odds ratio, confidence interval, p-value,…) và các giá trị liên quan khác.

Ví dụ: Giả sử ta có bộ dữ liệu credit_approval gồm các biến đầu vào là age (tuổi), income (thu nhập), balance (số dư tài khoản) và default (khách hàng có vấn đề thanh toán hay không). Ta muốn xây dựng mô hình hồi quy logistic để dự đoán khả năng default của khách hàng dựa trên các biến đầu vào này. Ta có thể sử dụng câu lệnh như sau:

proc logistic data=credit_approval;
  model default = age income balance / selection=backward;
run;

Trong ví dụ này, ta sử dụng các biến đầu vào là age, income, và balance để dự đoán biến phụ thuộc nhị phân default. Ta sử dụng tùy chọn selection=backward để SAS tự động loại bỏ các biến không quan trọng trong mô hình. Kết quả sau khi chạy câu lệnh này sẽ hiển thị các tham số, thông tin về mô hình và các giá trị liên quan khác, để giúp ta đánh giá hiệu quả của mô hình trong dự đoán khả năng default của khách hàng dựa trên các biến đầu vào.


Overview
Data Step
Data Aggregation
Data Visualization
Proc SQL
Variable Analysis
Macro
Model Regression
Variable Selection
Model Assessment