Dữ liệu trong SAS

Các kiến thức về dữ liệu trong SAS.

Mục lục

Object trong SAS thường chỉ bao gồm bảng (dữ liệu - data). Điều này khá khác biệt với các phần mềm thống kê khác như R hoặc Python khi mà Object có thể gồm Array, List, … Tên của bảng trong SAS có cấu trúc như sau:

LIBRARY.DATA

Trong đó

  • LIBRARY là tên của thư viện (đã được đề cập ở mục trước). Chú ý rằng nếu dữ liệu ở trong thư việc WORK thì có thể bỏ phần LIBRARY đi. Khi đó tên dữ liệu chỉ cần viết DATA.
  • DATA là tên của dữ liệu. Quy tắc đặt tên dữ liệu trong SAS như sau:

    • Độ dài tối đa 32 ký tự.
      • Không được chứa ký tự đặc biệt ngoài trừ gạch dưới (_).
      • Phải bắt đầu bằng chữ cái Latin (A-Z) hoặc gạch dưới (_).

Dữ liệu bao gồm các biến. Ví dụ về các biến trong dữ liệu được cho dưới đây:

Data Type
Các dạng dữ liệu

Quy tắc đặt tên biến tương tự với quy tắc đặt tên dữ liệu:

  • Độ dài tối đa 32 ký tự.
  • Không được chứa ký tự đặc biệt ngoài trừ gạch dưới (_).
  • Phải bắt đầu bằng chữ cái Latin (A-Z) hoặc gạch dưới (_).

Các biến trong SAS có hai định dạng là dạng chữ hoặc dạng số. Trong đó dạng số có một số hình thái khác là dạng thời gian hoặc tiền tệ. Các biến có định dạng - format là cách thức các biến hiển trị trong các báo cáo/ dữ liệu trong SAS. Tên định dạng của các loại biến được cho như sau:

  • Biến chữ: $FORMATw. biến chữ có độ dài là w.
  • Biến số: FORMATw.d hiển thị w số trước dấu phảy là d số sau dấu phảy.
  • Biến thời gian: FORMATw. hiển thị w số trước dấu phảy.

Bảng sau đây ví dụ về một số định dạng và cách hiển thị dữ liệu tương ứng.

Mỗi biến có ba tham số quan trọng. Để đặt các tham số này ta dùng lệnh ATTRIB (attribute) như sau:

ATTRIB VAR_NAME FORMAT= LABEL= LENGTH=;

Trong đó:

  • VAR_NAME là tên của biến thoả mãn quy tắc đặt tên.
  • FORMAT là định dạng của biến theo nội dung phía trên.
  • LABEL là label của biến là ký tự sẽ hiển thị khi report dữ liệu. Label của biến có thể đặt tuỳ ý. Ví dụ SUM OF MATH AND PHYSICS;
  • LENGTH là độ dài của biến.

Related Docs

Overview
Data Step
Data Aggregation
Data Visualization
Proc SQL
Variable Analysis
Macro
Model Regression
Variable Selection
Model Assessment