Salesforce CRM Analytics 高阶数据准备：数据工程师深入解析 Dataflow 与 Recipe

背景与应用场景

大家好，我是一名 Salesforce 数据工程师。在我的日常工作中，核心任务是构建高效、可靠且可扩展的数据管道，将原始数据转化为驱动商业决策的深刻洞见。在 Salesforce 生态系统中，CRM Analytics（其前身为 Einstein Analytics）是我们实现这一目标的最强大平台。然而，任何高质量的分析都始于高质量的数据，“输入的是垃圾，输出的也是垃圾”这句古老的格言在数据领域是永恒的真理。因此，数据准备——即数据的提取、转换和加载（ETL）过程——是整个分析生命周期中至关重要的一环。

作为数据工程师，我们不只是简单地将数据从 A 点移动到 B 点。我们的职责是确保数据的准确性、一致性和完整性。在 CRM Analytics 中，我们主要使用两种核心工具来完成这项任务：Dataflow 和 Recipe。它们是构建分析数据集（Dataset）的引擎，负责处理来自各种源头（包括 Salesforce 对象、外部数据源等）的数据。

应用场景无处不在：

数据清洗：处理来自不同系统、格式不一的客户数据，例如标准化地址格式、填充缺失的联系方式、纠正输入错误。
数据转换：将复杂的数据结构扁平化，或者创建新的计算字段。例如，根据商机金额和阶段计算加权收入，或者将日期字段拆分为年、月、日以便于趋势分析。
数据扩充：将 Salesforce 的核心 CRM 数据（如客户和商机）与外部数据（如 ERP 系统的销售订单、市场营销活动的参与度数据）进行连接，形成一个 360 度的客户视图。
数据建模：为特定的业务问题构建优化的数据集。例如，创建一个专门用于销售预测分析的数据集，其中仅包含相关的字段，并预先计算好关键指标，以确保仪表板（Dashboard）的最佳查询性能。

在这篇文章中，我将从数据工程师的视角，深入探讨 Dataflow 和 Recipe 的工作原理、差异、代码示例及最佳实践，帮助你掌握在 CRM Analytics 中构建企业级数据管道的技能。

原理说明

在 CRM Analytics 中，数据准备的核心理念是定义一个可重复执行的流程，将源数据转化为可供分析的最终数据集。Dataflow 和 Recipe 都是实现这一目标的工具，但它们的设计哲学和使用方式有所不同。

Dataflow

Dataflow 是 CRM Analytics 经典的数据准备工具。它的本质是一个 JSON 文件，通过定义一系列相互连接的节点（Node）来描述整个数据处理流程。每个节点执行一个特定的操作，例如提取数据、连接数据流、计算新字段或注册最终的数据集。对于数据工程师来说，理解其 JSON 结构是掌握 Dataflow 的关键。

常见的 Dataflow 节点类型包括：

sfdcDigest：这是最常用的起始节点，用于从一个 Salesforce 对象（标准或自定义）中提取数据。你可以指定要提取的字段、定义过滤条件，甚至可以设置增量更新以提高效率。
augment：此节点用于将两个数据流（Streams）连接在一起，类似于 SQL 中的 JOIN 或 Excel 中的 VLOOKUP。你可以根据一个或多个公共键（Key）将左侧数据流的列附加到右侧数据流中。
computeExpression：一个功能强大的节点，允许你使用 SAQL (Salesforce Analytics Query Language) 表达式创建新的计算字段。这可以用于数学运算、字符串处理、条件逻辑（case when）等。
computeRelative：专门用于基于分组和排序计算相关值的节点，例如计算与上一个订单的时间差或计算移动平均值。
filter：根据指定的条件筛选数据流中的记录。
sfdcRegister：这是最终节点，负责将处理过的数据流注册（保存）为一个 CRM Analytics 数据集，使其可用于镜头（Lens）和仪表板的探索。

Dataflow 的优势在于其灵活性和精确控制能力。通过直接编辑 JSON，你可以实现一些非常复杂和定制化的数据转换逻辑。然而，它的学习曲线相对陡峭，并且缺乏可视化的界面，使得调试和维护变得更具挑战性。

Recipe

Recipe（配方）是 Salesforce 推荐的新一代数据准备工具。它提供了一个现代化的、可视化的用户界面，让数据工程师和分析师能够通过点击式操作来构建数据管道。你可以在一个流程图中清晰地看到数据的流动、转换的每一步以及数据的实时预览。

Recipe 的核心优势包括：

可视化界面：直观的图形化界面大大降低了使用门槛，使得构建和维护数据流程变得更加简单快捷。
智能建议：Recipe 内置了智能转换功能，可以自动分析你的数据并建议常见的数据清洗操作，例如根据分隔符拆分列、提取日期部分等。
数据预览与分析：在每一步转换后，你都可以立即看到数据的预览和字段的分布情况（数据剖析），这对于调试和验证逻辑至关重要。
功能丰富：Recipe 几乎涵盖了 Dataflow 的所有功能，并提供了更多现代化的转换选项，如聚合、窗口函数、情感分析预测等。

对于数据工程师而言，Recipe 是我们的首选工具。它不仅提高了开发效率，也使得与业务分析师的协作更加顺畅。虽然它主要是一个 UI 工具，但在需要复杂逻辑时，我们仍然可以在其公式（Formula）转换节点中使用 SAQL 表达式，保留了代码层面的灵活性。

示例代码

虽然 Recipe 是可视化的，但 Dataflow 的核心是 JSON 代码。理解这段代码是理解其工作方式的最佳途径。以下示例来自 Salesforce 官方文档，展示了一个典型的 Dataflow，它从“Opportunity”和“Account”对象中提取数据，将客户信息扩充到商机记录中，并最终注册为一个名为“OpptyWithAccount”的数据集。

Dataflow JSON 示例：

{
  "Extract_Opportunities": {
    "action": "sfdcDigest",
    "parameters": {
      "object": "Opportunity",
      "fields": [
        { "name": "Id" },
        { "name": "Name" },
        { "name": "Amount" },
        { "name": "StageName" },
        { "name": "AccountId" }
      ]
    }
  },
  "Extract_Accounts": {
    "action": "sfdcDigest",
    "parameters": {
      "object": "Account",
      "fields": [
        { "name": "Id" },
        { "name": "Name" },
        { "name": "Industry" },
        { "name": "Type" }
      ]
    }
  },
  "Augment_Opportunity_with_Account": {
    "action": "augment",
    "parameters": {
      "left": "Extract_Opportunities",
      "left_key": [ "AccountId" ],
      "right": "Extract_Accounts",
      "right_key": [ "Id" ],
      "right_select": [
        "Name",
        "Industry",
        "Type"
      ],
      "relationship": "Account"
    }
  },
  "Compute_Opportunity_Size": {
    "action": "computeExpression",
    "parameters": {
      "source": "Augment_Opportunity_with_Account",
      "mergeWithSource": true,
      "computedFields": [
        {
          "name": "OpptySize",
          "type": "Text",
          "saqlExpression": "case when Amount > 100000 then \"Large\" when Amount > 50000 then \"Medium\" else \"Small\" end"
        }
      ]
    }
  },
  "Register_OpptyWithAccount_Dataset": {
    "action": "sfdcRegister",
    "parameters": {
      "alias": "OpptyWithAccount",
      "name": "OpptyWithAccount",
      "source": "Compute_Opportunity_Size"
    }
  }
}

代码注释：

第 2-13 行 (Extract_Opportunities): 定义了一个 `sfdcDigest` 节点，从 `Opportunity` 对象中提取 `Id`, `Name`, `Amount`, `StageName` 和 `AccountId` 字段。
第 14-25 行 (Extract_Accounts): 定义了另一个 `sfdcDigest` 节点，从 `Account` 对象中提取 `Id`, `Name`, `Industry` 和 `Type` 字段。
第 26-39 行 (Augment_Opportunity_with_Account): 这是 `augment` 节点。它将 `Extract_Opportunities` (left) 数据流与 `Extract_Accounts` (right) 数据流连接起来。连接的键是 `AccountId` (左) 和 `Id` (右)。它从客户数据流中选择了 `Name`, `Industry`, `Type` 这几个字段，并将它们添加到商机数据中。`relationship` 参数为新加入的字段组指定了一个前缀。
第 40-51 行 (Compute_Opportunity_Size): 这是一个 `computeExpression` 节点。它接收上一步 `augment` 节点的结果作为源(source)，并添加一个名为 `OpptySize` 的新计算字段。`saqlExpression` 使用 SAQL 的 `case` 语句，根据 `Amount` 字段的值将商机分类为 "Large"、"Medium" 或 "Small"。
第 52-59 行 (Register_OpptyWithAccount_Dataset): 最后的 `sfdcRegister` 节点将 `Compute_Opportunity_Size` 节点处理后的最终数据流注册为一个名为 "OpptyWithAccount" 的数据集。

注意事项

作为数据工程师，在设计和实施数据管道时，我们必须考虑平台的限制和潜在的风险。

权限 (Permissions)

操作 Dataflow 和 Recipe 需要适当的权限。确保执行操作的用户拥有 "CRM Analytics Plus Admin" 或 "CRM Analytics Plus User" 权限集。此外，集成用户（用于运行数据同步和数据流的用户）必须对 `sfdcDigest` 节点中引用的所有 Salesforce 对象和字段具有读取权限。

API 与限制 (API and Limits)

CRM Analytics 平台有一系列的限制，以确保所有租户的性能和稳定性。你需要特别关注：

数据同步限制：每次运行可以提取的记录数和总数据量有限制。
数据流/配方运行限制：你的组织在 24 小时内可以运行的数据作业总数是有限的，同时并发运行的作业数也有限制。
数据集限制：每个数据集的最大行数（目前通常是 20 亿行）、最大列数以及组织中所有数据集的总行数都有上限。详细信息请务必查阅最新的 Salesforce 官方文档。
SOQL 限制：`sfdcDigest` 节点在后台会生成 SOQL 查询来提取数据。如果你的查询过于复杂或数据量巨大，可能会触及 Salesforce 平台通用的 SOQL 查询限制。

错误处理 (Error Handling)

数据作业失败是常有的事。关键在于如何快速定位和解决问题。Data Manager 是你在 CRM Analytics 中监控和调试数据作业的主要工具。当一个 Dataflow 或 Recipe 失败时，Data Manager 会提供详细的错误日志。常见的错误包括：无效的字段名、数据类型不匹配、连接键找不到匹配项、SAQL 表达式语法错误等。建立一个例行的监控流程，并在作业失败时设置通知，是保证数据管道健康运行的关键。

数据同步 (Data Sync)

一个非常重要的前提是，在 Dataflow 或 Recipe 能够使用 Salesforce 数据之前，必须先通过 Data Sync (在 Data Manager 中配置) 将这些数据从 Salesforce 核心平台“复制”到 CRM Analytics 的中间存储层。Data Sync 负责高效地增量提取数据。务必确保所有需要用到的对象和字段都已包含在 Data Sync 的配置中，并已成功运行。

总结与最佳实践

Dataflow 和 Recipe 是 Salesforce 数据工程师工具箱中的核心利器。掌握它们是构建强大、可靠的分析解决方案的基础。

以下是我在实践中总结的最佳实践：

优先选择 Recipe (Recipe First)：对于所有新项目，应优先考虑使用 Recipe。它更易于使用、性能更优、更易于维护，并且是 Salesforce 未来的发展方向。只有在遇到 Recipe 无法实现的极其特殊的旧版 Dataflow 功能时，才考虑使用 Dataflow。
善用增量加载 (Incremental Loading)：在 Data Sync 和 Dataflow 的 `sfdcDigest` 节点中，尽可能配置增量更新。这使得每次作业只处理自上次运行以来发生变化的数据，能极大地缩短运行时间，节省系统资源。
流程模块化 (Modularize Your Flows)：对于非常复杂的数据准备逻辑，不要试图在一个庞大、臃肿的 Recipe 或 Dataflow 中完成所有事情。可以将其拆分为多个步骤：一个 Recipe 负责从源系统提取和初步清洗数据并输出一个中间数据集；第二个 Recipe 再基于这个中间数据集进行复杂的转换和扩充。这不仅提高了可读性和可维护性，也便于分步调试。
建立数据治理规范 (Data Governance)：为你的数据集、字段、Recipe 和 Dataflow 建立一套清晰的命名规范。例如，使用前缀来区分原始数据、清洗后数据和最终的分析数据集。同时，务必在描述字段中记录每个数据集的用途和数据来源，以建立清晰的数据血缘（Data Lineage）。
性能调优 (Performance Tuning)：在数据流的早期阶段就尽可能地过滤掉不需要的行和列。在 `augment` 或 `join` 操作之前进行过滤，可以显著减少后续节点需要处理的数据量。理解不同转换（特别是复杂的 SAQL 表达式）对性能的影响，并尽可能选择最优的实现方式。

作为一名 Salesforce 数据工程师，我们的价值不仅在于编写代码或配置工具，更在于我们能够深刻理解业务需求，并设计出能够将数据转化为商业价值的、健壮且高效的数据架构。精通 CRM Analytics 的数据准备层，正是实现这一价值的核心能力。

Salesforce Einstein AI 编程实践：开发者视角下的智能预测

九月 15, 2025

阅读全文

Salesforce中文网