SAS大学版完整安装指南:从零开始构建数据分析环境

在当今数据驱动的世界中,掌握数据分析技能已成为各行各业专业人士的必修课。Statistical Analysis System (SAS) 作为市场上最强大的数据分析软件套件之一,长期以来被广泛应用于金融、医疗和学术研究领域。尽管它通常被视为昂贵的专有软件,但为了帮助学习者和研究人员掌握这门核心技术,SAS 官方特别推出了 University Edition(大学版)

这款免费版本不仅为我们提供了工业级 SAS 软件套件的所有基本功能,还囊括了用于探索性数据分析的 JupyterLab,是开启 SAS 编程之旅的完美起点。然而,对于初学者来说,SAS 的安装配置往往比编写代码本身更具挑战性,因为它涉及到虚拟化技术的使用。

在本文中,我们将作为你的技术向导,手把手带你完成整个安装和配置过程。我们将深入探讨每一个步骤背后的原理,分享实用的排错技巧,并最终帮你搭建一个稳定的本地数据分析环境。无论你是完全没有虚拟机经验的新手,还是希望迁移到本地环境的数据分析师,这篇文章都将为你提供详尽的解决方案。

为什么选择 SAS University Edition?

在我们开始下载和安装之前,值得花一点时间了解为什么我们要选择这个版本。

  • 零成本:完全免费,无需昂贵的许可证费用,非常适合学生和个人学习者。
  • 工业级标准:它不是“简化版”玩具,而是真正的 Base SAS、SAS/STAT 和 SAS/IML 等核心组件。
  • 独立性:通过虚拟机运行,不会干扰你主机操作系统的环境。

第一步:准备工作与下载虚拟化平台

SAS University Edition 并不是像 Office 或 QQ 那样直接安装在 Windows 或 macOS 上的 INLINECODE7e591246 或 INLINECODE6ea8076a 文件,它运行在一个虚拟机(VM)内部。这意味着我们需要先搭建一个“虚拟电脑”。我们将使用 Oracle VM VirtualBox 作为我们的虚拟化软件,因为它是开源的、跨平台的,且与 SAS 大学版兼容性最好。

下载 VirtualBox

  • 我们可以访问 Oracle 官方网站的 VirtualBox 下载页面。
  • 在这里,选择与你主机操作系统(Windows, macOS, Linux 等)匹配的版本进行下载。
  • 实用见解:下载后,请务必像安装普通软件一样运行安装程序。在安装过程中,安装程序可能会询问是否安装网络功能,请务必选择“是”或同意,这是虚拟机与主机通信的关键。

成功安装后,启动 VirtualBox,你将看到管理界面。这就好比我们刚刚空置了一个机房,现在准备放入服务器。

第二步:获取 SAS University Edition 虚拟机文件

我们需要下载 SAS 的虚拟机镜像文件(通常以 INLINECODE5edc1738 或 INLINECODE506b3e7d 结尾)。这是一个包含预配置好的 Linux 系统和 SAS 软件的“压缩包”。

  • 访问下载门户:我们需要访问 SAS 的官方学术资源页面(通常称为 OnDemand for Academics 的下载区)。
  • 注册账号:即使是免费版,SAS 也要求我们创建一个个人资料。点击下载链接时,页面会重定向到登录界面。如果你没有账号,请点击“注册”。只需提供基本的电子邮件和用户信息即可。
  • 下载镜像:登录并同意许可条款后,你就可以开始下载虚拟机文件了。

注意:这个文件大约 1.7GB 到 2GB,取决于版本更新。如果你的网络较慢,可能需要一些时间。建议使用下载管理器以确保下载完整性。

第三步:设置工作目录(关键步骤)

在导入虚拟机之前,我们必须先规划好数据存储的位置。SAS Studio 运行在虚拟机内部,但我们需要处理的数据文件(如 CSV, Excel)通常存储在你的物理电脑上。为了实现两者的数据交互,我们需要建立一个共享文件夹

让我们开始创建目录结构

  • 在你的物理电脑上(例如 D 盘或文档中),创建一个主文件夹,命名为 SASUniversityEdition重要提示:文件夹名称中不要包含空格,这可能会导致 Linux 虚拟机无法识别路径。
  • 进入刚才创建的文件夹,在其中再创建一个子文件夹,命名为 myfolders

这个 myfolders 将成为我们后续所有数据分析和编程的“工作区”。

第四步:导入与配置 SAS 虚拟机

现在我们有了虚拟机软件和镜像文件,是时候组装它们了。

1. 导入 vApp

  • 打开 Oracle VM VirtualBox。
  • 点击菜单栏的 “管理” -> “导入虚拟电脑”(或直接点击界面上方的“导入”图标)。
  • 浏览到你下载的 .ova 文件,选中它并点击“打开”。
  • 此时系统会显示导入设置。建议检查一下“虚拟系统设置”中的内存和 CPU。

* 内存建议:虽然默认通常是 2048MB (2GB),但如果你主机内存充裕(8GB 以上),建议调整到 4096MB (4GB) 或更高。这将显著提高 SAS 处理大型数据集时的速度。

* CPU 建议:如果你的 CPU 是多核的,建议分配 2 个或更多处理器。

  • 点击“导入”。等待几分钟,VirtualBox 会将文件解压并部署到其内部存储中。

2. 配置共享文件夹(数据桥梁)

这是最容易出现错误的步骤,请仔细跟随操作。我们需要告诉 VirtualBox,刚才创建的 myfolders 需要映射到虚拟机里。

  • 在 VirtualBox 管理界面左侧列表中,选中刚刚导入的 SAS University Edition vApp
  • 点击 “设置” 图标。
  • 在弹出的窗口中,选择 “共享文件夹” 选项卡。
  • 点击右侧的 “添加共享文件夹” 图标(通常是一个带加号的文件夹图标)。
  • 配置路径

* 文件夹路径:点击下拉箭头,选择“其他”,然后浏览到我们在第三步创建的 myfolders 文件夹。

* 文件夹名称:系统通常会自动填充,请确保它显示为 myfolders(或与路径相关)。这是虚拟机内部看到的名称。

* 关键选项:务必取消勾选“只读”。如果不取消,SAS Studio 将无法保存你的程序或修改数据集。

* 自动挂载:建议勾选“自动挂载”,这能确保虚拟机启动时自动连接该文件夹。

  • 点击“确定”保存设置。

第五步:启动 SAS 环境

配置完成后,我们终于可以启动系统了。

  • 选中虚拟机,点击绿色的 “启动” 按钮。
  • 一个新的窗口会出现,显示 Linux 系统的启动过程(你会看到很多滚动文字)。这就像服务器在开机自检。
  • 不要关闭这个黑框窗口! 虚然机必须保持运行状态,我们才能访问 SAS。如果你想把它最小化,请注意不要直接关闭。

连接到 SAS Studio

虽然虚拟机启动了,但我们不能直接在那个黑框里写代码。我们需要通过浏览器来操作。

  • 启动你喜欢的现代浏览器(Chrome, Edge, Firefox 等)。
  • 在地址栏输入:http://localhost:10080(如果 10080 端口被占用,请尝试 1080 或 8080)。
  • 如果一切顺利,你将看到 SAS Studio 的登录界面。点击“Sign In”(通常不需要输入密码,或者点击默认登录)。

深入实战:编写与运行第一个程序

进入 SAS Studio 后,你会发现界面非常友好,类似于 Jupyter Notebook。让我们通过一个经典的例子来验证我们的环境是否工作正常,并学习一些 SAS 编程的基础逻辑。

#### 示例 1:Hello World 与数据集创建

SAS 的强大之处在于其“数据步”和“过程步”。让我们先创建一个简单的员工数据集。

/* 定义数据步,创建一个名为 work.employees 的数据集 */
data work.employees;
    /* 输入变量定义:ID是数字,Name是字符($代表字符型),Salary是数字 */
    input ID Name $ Salary;
    /* 计算新变量:根据Salary计算年度奖金(假设为10%) */
    Bonus = Salary * 0.10;
    /* 数据行开始 */
datalines;
101 张三 15000
102 李四 12000
103 王五 18000
;
/* 打印数据集内容到结果窗口 */
run;

proc print data=work.employees;
run;

代码解析

  • data 语句告诉 SAS 我们要开始处理数据了。
  • INLINECODE69b465bf 定义了数据结构。注意 INLINECODEf9b6a1fa 符号,这在 SAS 中非常重要,漏掉它会导致数据读取错误。
  • INLINECODE242d8eac 是 SAS 特有的标记,表示接下来的行是实际数据,直到遇到分号 INLINECODEf4f425de 结束。
  • proc print 是一个过程步,用于将结果显示在“结果”选项卡中。

#### 示例 2:导入外部数据(实战应用)

在真实场景中,我们通常读取 CSV 文件。让我们验证一下“共享文件夹”是否配置成功。

  • 在你的物理电脑的 INLINECODEcdbff056 文件夹中,创建一个名为 INLINECODE01cbba4b 的文件,内容如下:
  •     Date,Product,Amount
        2023-10-01,A,100
        2023-10-02,B,200
        2023-10-03,A,150
        
  • 回到 SAS Studio,点击左侧的“服务器文件及文件夹”。你应该能在列表中看到 INLINECODEe61305e9 -> INLINECODE4fe64f1f -> sales.csv。如果你看不到,说明共享文件夹配置有问题,请检查虚拟机设置。

现在,让我们编写代码来导入它。

/* 设置引用逻辑库,将我的共享文件夹映射到 SAS 逻辑库 ‘mylib‘ */
libname mylib ‘/folders/myfolders‘;

/* 使用导入过程读取 CSV 文件 */
proc import datafile=‘/folders/myfolders/sales.csv‘
    out=mylib.sales_data
    dbms=csv
    replace;
    getnames=yes; /* 自动使用第一行作为变量名 */
run;

/* 查看导入的数据 */
proc contents data=mylib.sales_data;
run;

/* 计算总销售额 */
proc means data=mylib.sales_data sum;
    var Amount;
run;

代码深度解析

  • INLINECODEaef284f0 语句是 SAS 的核心概念之一。它就像在电脑上创建一个快捷方式,让 SAS 能找到 INLINECODE8cb91c0d 这个物理路径。注意路径在 Linux 虚拟机中的写法是正斜杠 /
  • proc import 非常智能,它能自动识别 CSV 的格式。

#### 示例 3:数据清洗与条件逻辑

在实际工作中,数据往往是脏的。让我们看看如何处理缺失值或异常值。

假设我们要过滤掉销售额低于 150 的记录,并标记它们。

“INLINECODE602eca86`INLINECODE24566ca1foldersINLINECODE5a3744caproc contentsINLINECODE169d2667PROC REGINLINECODE71b2a2f3PROC ANOVAINLINECODE633eddf7PROC SGPLOT`,它能生成比传统图表更精美的出版级图表。

祝你数据分析的学习之旅充满乐趣和收获!

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。如需转载,请注明文章出处豆丁博客和来源网址。https://shluqu.cn/24192.html
点赞
0.00 平均评分 (0% 分数) - 0