Mục lục
Overview
Trong SAS, proc summary
là một thủ tục được sử dụng để tóm tắt và tính toán các thống kê trên bộ dữ liệu. Các thống kê này có thể bao gồm min, max, mean, median, sum, count, và nhiều loại khác.
Cú pháp chung của câu lệnh proc summary
như sau:
proc summary data=dataset;
var variable1 variable2 ...;
class class_variable1 class_variable2 ...;
output out=new_dataset(statistics=statistic_1 statistic_2 ...);
run;
Trong đó:
dataset
là tên bộ dữ liệu mà ta muốn tính toán thống kê.variable1
,variable2
,… là danh sách các biến mà ta muốn tính toán thống kê.class_variable1
,class_variable2
,… là danh sách các biến được sử dụng để phân loại dữ liệu cho tính toán thống kê.new_dataset
là tên bộ dữ liệu mới được tạo ra chứa các thống kê tính toán.statistics
là danh sách các thống kê mà ta muốn tính toán.
Ví dụ: Giả sử ta có bộ dữ liệu sales
với các biến region
, month
, và sale_amount
. Ta muốn tính toán tổng doanh số bán hàng (total sales) cho từng khu vực trong mỗi quý. Ta có thể sử dụng câu lệnh như sau:
proc summary data=sales;
var sale_amount;
class region month;
output out=sales_summary(drop=_type_ _freq_)
sum(sale_amount)=total_sales;
run;
Trong ví dụ này, ta sử dụng var
để chỉ định rằng ta muốn tính toán thống kê trên biến sale_amount
. Sau đó, ta sử dụng class
để phân loại dữ liệu theo các biến region
và month
. Cuối cùng, ta sử dụng output
để lưu kết quả vào một bộ dữ liệu mới sales_summary
với thống kê được tính toán là tổng doanh số bán hàng (total_sales
). Trong câu lệnh output
, ta sử dụng drop
để loại bỏ các biến _type_
và _freq_
được tạo ra trong quá trình tính toán. Kết quả sau khi tính toán sẽ được lưu trong bộ dữ liệu mới sales_summary
với mỗi quan sát tương ứng với một khu vực và một quý, và chứa thông tin về tổng doanh số bán hàng cho từng quý của mỗi khu vực.