精通 Salesforce Einstein Analytics：数据工程师的数据流与 SAQL 指南

背景与应用场景

作为一名 Salesforce 数据工程师，我的核心职责是构建、管理和优化数据管道，确保业务用户能够访问到准确、及时且有意义的数据洞察。在 Salesforce 生态系统中，传统报表和仪表盘在处理大规模数据、整合外部数据源以及进行复杂分析时会遇到瓶颈。这时，Einstein Analytics（现已更名为 CRM Analytics）就成为了我们手中最强大的工具。

Einstein Analytics 是一个建立在 Salesforce 平台之上的云端商业智能（BI）和数据可视化平台。它与 Salesforce 核心对象（如 Account, Opportunity, Case）深度集成，同时具备强大的数据整合能力，可以连接外部数据库、数据仓库甚至 CSV 文件。对于数据工程师而言，它的价值不仅在于最终呈现的精美图表，更在于其背后强大的数据处理引擎。

核心应用场景包括：

360度客户视图： 通过整合 Salesforce CRM 数据、市场营销数据（如 Pardot 或 Marketing Cloud）、服务数据以及 ERP 系统中的订单数据，构建一个全面的客户数据集（Dataset），让销售和服务团队能够基于完整的客户旅程做出决策。
销售预测与管道分析： 超越标准的预测功能，通过分析历史数据中的复杂模式，识别影响赢单率的关键因素，并对销售管道的健康状况进行深度剖析。
服务效率优化： 结合案例（Case）数据、客服人员绩效数据和客户满意度（CSAT）数据，找出服务瓶颈，优化资源分配，并主动识别可能升级的客户问题。
大规模数据探索： 当标准报表因为数据量过大而超时或无法运行时，Einstein Analytics 可以轻松处理数千万甚至上亿行的数据，提供高性能的交互式探索体验。

对于数据工程师来说，我们的战场主要在 Einstein Analytics 的后端——Data Manager。在这里，我们定义数据如何被提取、转换和加载（ETL），确保前端分析师和业务用户使用的是高质量、经过治理的数据。我们的工作质量直接决定了整个分析平台的价值。

原理说明

要掌握 Einstein Analytics，数据工程师必须理解其核心的数据处理流程和关键组件。整个流程可以概括为：数据源（Data Sources） -> 数据准备（Data Prep） -> 数据集（Datasets） -> 数据探索与可视化（Lenses & Dashboards）。

数据架构概览

整个平台的数据流是单向的。我们从一个或多个数据源抽取数据，通过一个强大的数据处理层进行转换，最终生成一个或多个高度优化、索引化的数据集（Dataset）。Dataset 是一种非规范化的、扁平的数据存储格式，专门为快速聚合和查询而设计。所有的查询、图表和仪表盘都是直接作用于这些 Dataset 之上，而不是实时查询源数据，这是其高性能的关键。

核心组件：Dataflow 与 Recipe

数据准备（Data Prep）是数据工程师工作的核心区域，主要通过两种工具实现：Dataflow 和 Recipe。

1. Dataflow (数据流):

Dataflow 是 Einstein Analytics 经典的数据转换工具。它本质上是一个 JSON 文件，定义了一系列按顺序执行的节点（Node）。每个节点执行一个特定的操作，如从 Salesforce 对象中提取数据、关联两个数据流、计算新字段或注册最终的 Dataset。

sfdcDigest: 这是最常用的节点之一，用于从指定的 Salesforce 对象中提取数据。你可以选择要抽取的字段，并可以应用一个简单的筛选条件。
edgemart: 用于将一个数据流注册为一个可供查询的 Dataset。这是数据流的终点。
augment: 类似于 SQL 中的 `LEFT JOIN`，用于根据一个或多个公共键（Key）将另一个数据流的字段追加到当前数据流中。
computeExpression: 允许你使用类似 SAQL 的表达式语言创建新的计算字段。例如，进行数学运算、字符串拼接或条件逻辑判断。
computeRelative: 用于基于分组和排序的数据，计算与前后记录相关的字段。例如，计算距离上次活动的天数。

虽然 Dataflow 功能强大，但直接编辑 JSON 文件较为复杂且容易出错，可维护性较差。

2. Recipe (新数据准备):

Recipe (新数据准备) 是 Salesforce 推荐的现代化数据准备工具。它提供了一个直观的、可视化的用户界面，让数据工程师可以通过点击式操作来构建复杂的数据转换逻辑。其功能比 Dataflow 更强大、更灵活，例如支持更复杂的 Join 类型（Inner, Right, Full Outer Join）、提供了更多预置的转换函数（如情感分析、数据聚类等）。在后台，Recipe 也会生成一个定义文件，但我们通常不需要直接操作它。

作为最佳实践，对于所有新的数据集成项目，我们都应该优先选择使用 Recipe。

查询语言：SAQL

一旦数据被加载到 Dataset 中，我们就需要一种语言来查询它。这就是 SAQL (Salesforce Analytics Query Language) 的用武之地。SAQL 是一种面向数据集的查询语言，语法结构上类似于 SQL，但也有其独特性，因为它被设计用于处理预聚合和非规范化的数据结构。

一个典型的 SAQL 查询包含以下几个部分：

q = load "MyDataset";
q = group q by ('Account.Name', 'Opportunity.Stage');
q = foreach q generate 'Account.Name' as 'AccountName', 'Opportunity.Stage' as 'Stage', sum('Opportunity.Amount') as 'TotalAmount';
q = order q by 'TotalAmount' desc;
q = limit q 100;

这段 SAQL 的含义是：

load: 从名为 "MyDataset" 的数据集中加载数据流。
group by: 按客户名称和商机阶段对数据进行分组。
foreach: 对于每个分组，生成三个字段：客户名称、商机阶段，以及该分组下商机金额的总和（sum）。
order by: 按总金额降序排序。
limit: 只返回前100条结果。

数据工程师不仅需要通过 SAQL 来验证 Dataset 的数据质量，还可以在仪表盘的 JSON 中直接编写 SAQL，以实现标准图表构建器无法完成的复杂查询逻辑。

示例代码

在实际工作中，我们经常需要通过编程方式与 Einstein Analytics 交互，例如触发数据同步、监控任务状态，或者动态执行 SAQL 查询并将结果集成到外部应用中。这通常通过 Analytics REST API 实现。以下示例展示了如何使用 Analytics REST API 的 /wave/query 端点来执行一个 SAQL 查询。

这个例子假设我们有一个名为 "opportunity_dataset" 的数据集，其中包含商机信息。我们将查询每个销售阶段（StageName）的总金额（Amount）。

通过 Analytics REST API 执行 SAQL 查询

这是一个向 /services/data/vXX.X/wave/query 端点发送 POST 请求的请求体（Request Body）示例。您可以使用任何支持 REST 的工具（如 Postman、curl）或在 Apex 代码中构造此请求。

{
  "query": "q = load \"opportunity_dataset\"; q = group q by 'StageName'; q = foreach q generate 'StageName' as 'Stage', sum('Amount') as 'TotalAmount'; q = order q by 'Stage' asc;"
}

代码注释：

"query": 这是 JSON 请求体的主键，其值是一个包含完整 SAQL 查询的字符串。
q = load \"opportunity_dataset\";: 从名为 "opportunity_dataset" 的数据集中加载数据。注意，在 JSON 字符串中，双引号需要被转义（\"）。
q = group q by 'StageName';: 按 "StageName" 字段对数据进行分组。
q = foreach q generate 'StageName' as 'Stage', sum('Amount') as 'TotalAmount';: 对于每个分组，生成两个投影字段。第一个是原始的 "StageName"，我们将其别名为 "Stage"。第二个是 "Amount" 字段的总和，我们将其别名为 "TotalAmount"。
q = order q by 'Stage' asc;: 按照我们新生成的 "Stage" 字段进行升序排序。

官方文档依据： 此示例严格遵循 Salesforce Analytics REST API 开发者指南中关于执行查询（Execute a Query）的说明。您可以在 Salesforce 开发者文档中搜索 "Execute a SAQL Query Using the REST API" 找到相关内容和更多细节。

执行此请求后，API 将返回一个 JSON 响应，其中包含查询结果，格式如下：

{
  "action": "query",
  "responseId": "...",
  "results": {
    "records": [
      {
        "Stage": "Closed Won",
        "TotalAmount": 2500000
      },
      {
        "Stage": "Negotiation/Review",
        "TotalAmount": 1200000
      },
      {
        "Stage": "Prospecting",
        "TotalAmount": 5500000
      }
    ]
  },
  "query": "...",
  "executed": true,
  "done": true
}

这个功能对于需要将分析结果嵌入到自定义 Lightning Web Component 或外部系统中的场景非常有用。

注意事项

作为数据工程师，在设计和实施 Einstein Analytics 数据解决方案时，必须考虑以下关键点：

1. 权限与可见性 (Permissions & Visibility):

权限集 (Permission Sets): 用户需要分配 "CRM Analytics Plus Admin" 或 "CRM Analytics Plus User" 权限集才能创建或查看分析内容。确保为不同的用户角色分配了最小必要权限。
应用与共享 (Apps & Sharing): 所有资产（Datasets, Dashboards等）都存在于应用（App）中。你需要为用户或用户组授予对 App 的访问权限（Viewer, Editor, Manager）。
行级安全 (Row-Level Security): 对于敏感数据，必须实施行级安全。这通过在 Dataset 上定义安全谓词 (Security Predicate) 来实现。这是一个筛选条件，它会根据当前登录用户的信息（如 Role, Profile, User ID）动态过滤 Dataset 中的数据。例如：'OwnerId' == "$User.Id"。

2. 数据同步与限制 (Data Sync & Limits):

Dataflow/Recipe 运行限制: 每个 Salesforce 组织在24小时内可以运行的 Dataflow/Recipe 次数是有限的。对于大型组织，这个限制通常是120次。你需要合理安排数据作业的调度，避免超出限制。
数据量限制: 单个 Dataset 的行数和总数据大小都有限制。虽然这个限制很高（通常是数十亿行），但在处理超大规模数据时仍需提前规划，可能需要对数据进行预聚合或分拆。
连接器限制: 使用不同的数据连接器（Salesforce Local, S3, Heroku Postgres 等）时，需要注意其特定的数据抽取频率和数据量限制。
API 限制: 通过 API 执行 SAQL 查询会消耗 Salesforce 的 API 调用总数。在设计高频调用的集成方案时，必须考虑 API 消耗。

3. 错误处理与监控 (Error Handling & Monitoring):

Data Manager Monitor: 这是你的主要监控工具。所有 Dataflow 和 Recipe 的运行历史、成功、失败状态以及详细的错误日志都可以在这里找到。养成定期检查监控页面的习惯。
常见错误: 常见的数据作业失败原因包括：源数据字段类型变更、源记录被删除导致查找（lookup）失败、数据转换逻辑错误（如除以零）、或者超出 Salesforce 平台的调控器限制（Governor Limits）。
调试策略: 当 Dataflow/Recipe 失败时，仔细阅读错误日志。对于复杂问题，可以尝试将数据流拆分成更小的部分，或者创建一个临时的、只包含少量数据的 Dataset 进行调试。

总结与最佳实践

Einstein Analytics (CRM Analytics) 为 Salesforce 数据工程师提供了一个端到端的数据处理与分析平台。它不仅仅是一个可视化工具，更是一个强大的 ETL 引擎，能够帮助我们应对复杂的数据挑战。

作为数据工程师，我们的最佳实践应该围绕以下几点：

优先使用 Recipe: 对于所有新项目，应优先采用 Recipe 进行数据准备。它的可视化界面、更丰富的功能和更好的性能使其成为优于传统 Dataflow 的选择。
数据准备层前置过滤: 在数据流的早期阶段就尽可能地过滤掉不需要的记录和字段（使用 `Filter` 和 `Slice` 转换）。这能显著减少后续处理的数据量，提升整个作业的性能。
优化数据关联 (Augment/Join): 在进行数据关联时，确保关联键（Key）的类型和格式一致。尽可能地在数据量较小的一侧进行关联，并提前移除不必要的列。
增量同步: 对于支持的数据源，尽可能配置增量同步（Incremental Sync）而不是全量同步（Full Sync），以减少数据加载时间和对源系统的压力。
文档化: 详尽地记录你的数据流、字段定义和转换逻辑。当团队成员变更或需要排查问题时，良好的文档是无价的。
善用 SAQL: 不要局限于仪表盘的UI操作。当需要进行复杂的计算、比较或多数据集联合查询时，深入学习并使用 SAQL 可以解锁平台的全部潜力。

最终，数据工程师在 Einstein Analytics 项目中的成功，衡量标准是能否构建出既高效、可靠又易于维护的数据管道，从而为企业提供坚实的数据基础，驱动智能决策。

Salesforce Einstein AI 编程实践：开发者视角下的智能预测

九月 15, 2025

阅读全文

Salesforce中文网