Variable Selection Stepwise Method

Phương pháp chọn biến dựa trên phương pháp stepwise

Mục lục

Các phương pháp

Phương pháp lựa chọn biến bằng phương pháp stepwise thuộc dạng thuật toán Greedy: Tại mỗi bước, thuật toán sẽ tìm một biến sao cho sức mạnh của mô hình là lớn nhất. Ba dạng thuật toán phổ biến ở dạng này là Forward, Backward và Stepwise.

Phương pháp Forward

Phương pháp Forward được mô tả như sau:

  • Bước 0: Bắt đầu với mô hình có 0 biến. Chọn biến sao cho mô hình mạnh nhất (hệ số Gini là cao nhất). Đưa biến đó vào tập hợp biến đã vào mô hình.
  • Bước 1. Chọn biến từ tập hợp các biến chưa vào mô hình sao cho biến đó kết hợp với tập hợp biến đã vào mô hình để mô hình mạnh nhất. Thêm biến đó vào danh sách biến đã vào mô hình.
  • Bước 2. Tiếp tục các bước 1 cho đến khi việc thêm biến không ảnh hưởng khác biệt đến sức mạnh của mô hình Minh họa cho phương pháp Forward được cho như sau:
Forward Method for Variable Selection

Phương pháp Backward

Phương pháp Backward ngược lại với forward. Bắt đầu với việc cho tất cả các biến vào mô hình và loại dần các biến sao cho mô hình bị yếu đi ít nhất

Phương pháp Stepwise

Phương pháp Stepwise là kết hợp của Forward và Backward. Các bước thực hiện được mô tả như sau:

  • Bước 0: Bắt đầu với mô hình có 0 biến. Chọn biến sao cho mô hình mạnh nhất. Đưa biến đó vào tập hợp biến đã vào mô hình
  • Bước 1.1. Chọn biến từ tập hợp các biến chưa vào mô hình sao cho biến đó kết hợp với tập hợp biến đã vào mô hình để mô hình mạnh nhất. Thêm biến đó vào danh sách biến đã vào mô hình.
  • Bước 1.2. Chọn biến từ tập hợp biến đã vào mô hình sao cho khi loại biến đó đi thì mô hình yếu đi ít nhất. Thêm biến đó vào tập hợp biến chưa vào mô hình.
  • Bước 2. Tiếp tục các bước 1.1 và 1.2 cho đến khi việc thêm biến/bỏ biến không ảnh hưởng khác biệt đến sức mạnh của mô hình

Minh họa cho phương pháp Stepwise được cho như sau:

Stepwise Method for Variable Selection

Một số điều chỉnh

Các thuật toán trên đều được tích hợp sẵn trong các chương trình PROC LOGISTICPROC HPLOGISTIC. Tuy nhiên, các chương trình này sử dụng p-value để chọn biến tại mỗi bước. Macro SelectForward được thiết kể để chọn biến tại mỗi bước theo hệ số Gini.