Proc Summary

Cách thức sử dụng [Proc Summary](https://documentation.sas.com/?docsetId=proc&docsetTarget=p0aq3hsvflztfzn1xa2wt6s35oy6.htm&docsetVersion=9.4&locale=en)

Mục lục

Overview

Trong SAS, proc summary là một thủ tục được sử dụng để tóm tắt và tính toán các thống kê trên bộ dữ liệu. Các thống kê này có thể bao gồm min, max, mean, median, sum, count, và nhiều loại khác.

Cú pháp chung của câu lệnh proc summary như sau:

proc summary data=dataset;
  var variable1 variable2 ...;
  class class_variable1 class_variable2 ...;
  output out=new_dataset(statistics=statistic_1 statistic_2 ...);
run;

Trong đó:

  • dataset là tên bộ dữ liệu mà ta muốn tính toán thống kê.
  • variable1, variable2,… là danh sách các biến mà ta muốn tính toán thống kê.
  • class_variable1, class_variable2,… là danh sách các biến được sử dụng để phân loại dữ liệu cho tính toán thống kê.
  • new_dataset là tên bộ dữ liệu mới được tạo ra chứa các thống kê tính toán.
  • statistics là danh sách các thống kê mà ta muốn tính toán.

Ví dụ: Giả sử ta có bộ dữ liệu sales với các biến region, month, và sale_amount. Ta muốn tính toán tổng doanh số bán hàng (total sales) cho từng khu vực trong mỗi quý. Ta có thể sử dụng câu lệnh như sau:

proc summary data=sales;
  var sale_amount;
  class region month;
  output out=sales_summary(drop=_type_ _freq_)
         sum(sale_amount)=total_sales;
run;

Trong ví dụ này, ta sử dụng var để chỉ định rằng ta muốn tính toán thống kê trên biến sale_amount. Sau đó, ta sử dụng class để phân loại dữ liệu theo các biến regionmonth. Cuối cùng, ta sử dụng output để lưu kết quả vào một bộ dữ liệu mới sales_summary với thống kê được tính toán là tổng doanh số bán hàng (total_sales). Trong câu lệnh output, ta sử dụng drop để loại bỏ các biến _type__freq_ được tạo ra trong quá trình tính toán. Kết quả sau khi tính toán sẽ được lưu trong bộ dữ liệu mới sales_summary với mỗi quan sát tương ứng với một khu vực và một quý, và chứa thông tin về tổng doanh số bán hàng cho từng quý của mỗi khu vực.


Overview
Data Step
Data Aggregation
Data Visualization
Proc SQL
Variable Analysis
Macro
Model Regression
Variable Selection
Model Assessment