Import dữ liệu

Cách thức đọc dữ liệu vào SAS từ Excel và SQL

Mục lục

Đọc dữ liệu từ Excel/Csv

Để import file Excel/Csv vào SAS Enterprise Guide, ta làm các bước như sau:

Bước 1. Chạy lệnh libname để tạo thư viện lưu trữ data. Sau đó vào file/Import data

Data Type
Các dạng dữ liệu

Bước 2. Chọn data cần import và bấm Open. Màn hình “Import data from…/ 1 of 4 Specify Data” sẽ xuất hiện. Chú ý rằng thư viện lưu trữ lúc này sẽ là WORK. Để chọn thư viện lưu trữ khác, ta làm các bước sau:

  • Bấm “Browse…”.
  • Sau bước trên, cửa số “Save as” sẽ hiện thị. Mặc định thư viện lưu trữ lúc này là WORK. Để chọn thư mục khác bấm “Up One Level”.
  • Sau khi bấm, chọn thư viện lưu dữ liệu và đặt tên dữ liệu ở phần “File name:”. Bấm “Save”.

Sau khi quay lại cửa số “Import data from…/ 1 of 4 Specify Data”, bấm “Next>”

Bước 3. Cửa số “Import data from…/ 2 of 4 Select Data Source” xuất hiện. Các tùy chọn cần lưu ý như sau:

  • Delimited Fields: Ký tự để ngăn cách các cột. Thường thì SAS sẽ tự động tìm đúng giá trị này.
  • Fixed column: Độ dài cố định ngăn cách các cột. Thường thì ít khi ta sử dụng tùy chọn này.
  • File contains field name on record number: Dòng chứa tên của các cột. Trong các dữ liệu thường là dòng thứ nhất (dòng 1).
  • Data records start at record number: Dòng bắt đầu dữ liệu. Thường là dòng số 2.
  • Limit the number of record read to: Giới hạn số dòng để đọc vào dữ liệu. Thường thì ít khi sử dụng tùy chọn này.
  • Rename columns to comply with SAS naming conventions: Tự động đổi tên cột để phù hợp với nguyên tắc đặt tên của SAS. Tùy chọn này thường xuyên được dùng nguyên nhân do các cột trong file Excel/Csv không phù hợp nguyên tắc đặt tên của SAS (ví dụ có dấu cách, ký tự đặc biệt).

Sau khi check đúng các thông tin, bấm “Next>”.

Bước 4. Cửa số “Import data from…/ 3 of 4 Select Data Source” xuất hiện.

Cửa số này chứa thông tin của từng biến. Các thông tin quan trọng như sau:

  • Source name, Name, Label: Tên biến trong file ban đầu, tên biến trong dữ liệu SAS, Label của biến.
  • Type: Loại dữ liệu gồm các dạng là Number, String, Date, Time, Date/ Time và Currency. Thường thì SAS sẽ nhận diện đúng giá trị này. Nếu SAS nhận diện sai thì chọn click vào biến tương ứng và chọn giá trị đúng.
  • Source Informat, Len, Output Format, Output Informat: Format của biến trong dữ liệu ban đầu, độ dài của biến, format của biến trong dữ liệu SAS. Các giá trị này thể hiện định dạng của biến. Nếu các giá trị này sai (thường gặp trong trường hợp dữ liệu ở dạng date hoặc time) thì cần điều chỉnh lại. Để điều chỉnh, ta chọn biến và bấm “Modify…”. Tại đây ta có thể điều chỉnh từng tham số thủ công.

Sau khi check đúng các thông tin, bấm “Next>”.

Bước 5. Cửa số “Import data from…/ 4 of 4 Advanced Options” xuất hiện.

Thường thì ta ít khi dùng các tùy chọn ở cửa số này ngoại trừ “Generalize import step to run outside SAS Enterprise Guide”. Tùy chọn này sẽ sinh ra một file code SAS. Ta có thể chạy code SAS này để import dữ liệu mà không cần thực hiện các bước trên. Tùy chọn này hữu ích khi phải import nhiều file có định dạng giống nhau cùng lúc. Bấm “Finish” để kết thúc import dữ liệu.

Đọc dữ liệu từ SQL Server

Để sử dụng SAS truy cập trực tiếp vào SQL Server, ta dùng giao thức ODBC. ODBC (Open Database Connectivity) cung cấp một phương pháp để các phần mềm có thể trao đổi dữ liệu lần nhau. Để liên kết SAS với SQL ta làm các bước như sau:

Bước 1: Mở Control Panel/Administrative Tools/Data Sources (ODBC). Hoặc dùng search để tìm “ODBC”

Bước 2: Chọn Add/SQL Server/Finish.

**Bước 3: Gõ tên ODBC ở mục Name và gõ Server:

  • Nếu là Remote Server thì gõ đường dẫn (ví dụ 10.36.96.56).
  • Nếu là Local Server thì gõ (local)

Bấm Next

Step 4: Chia thành 2 trường hợp như sau:

  • Nếu tại bước 3 là Remove Server thì chọn With SQL Server… Sau đó nhập Login ID và Password. Ở phần Connnect to SQL Server to…
  • Nếu tại bước 3 là Local Server thì chọn With Window NT…

Bấm next.

Step 5: Chọn Change the default… và chọn database. Bấm next/finish

Step 6: Trong phần mềm SAS gõ lệnh:

LIBNAME [LIBRARY] ODBC DSN=‘ODBC NAME' USER=[USER] PW=[PASSWORD] SCHEMA=DBO;

Trong đó ODBC là tên đã được tạo ở bước 3. [USER] và [PASSWORD] là tên user và password đăng nhập Remote Server


Related Docs

Overview
Data Step
Data Aggregation
Data Visualization
Proc SQL
Variable Analysis
Macro
Model Regression
Variable Selection
Model Assessment