Salesforce 数据工程师视角：玩转 Einstein Discovery，挖掘预测性洞察

背景与应用场景

大家好，我是一名 Salesforce 数据工程师。在我的日常工作中，我专注于构建稳健、高效的数据管道，确保数据的准确性、完整性和可用性。然而，仅仅提供干净的数据是不够的，数据的最终价值在于它能带来多少业务洞察。这就是 Salesforce Einstein Discovery 发挥关键作用的地方。Einstein Discovery 是一个强大的增强智能 (Augmented Intelligence) 工具，它利用机器学习和人工智能，自动分析您的数据，发现可行的洞察 (Insights) 并构建预测模型，而无需编写复杂的算法代码。

从数据工程师的角度来看，Einstein Discovery 不仅仅是一个“黑盒子”。它是一个对数据质量和结构要求极高的下游应用。一个精准的预测模型，其基石必然是高质量、经过精心准备的数据集。如果源数据存在偏差、缺失或错误，那么 Einstein Discovery 产出的模型也将是“Garbage In, Garbage Out”。因此，我们的角色至关重要：为 Einstein Discovery 提供最优质的“燃料”——也就是数据。

常见的应用场景包括：

销售预测： 预测商机 (Opportunity) 的赢单率，找出影响赢单的关键因素，帮助销售团队聚焦高价值客户。
客户流失预警： 识别具有高流失风险的客户，分析导致流失的主要原因（例如，服务案例解决时长、产品使用频率等），以便客服团队提前介入。
市场营销优化： 预测营销活动的转化率，分析哪些客户画像对特定活动响应最积极。
案例分类与路由： 预测服务案例 (Case) 的优先级或所属类别，实现自动化路由，提升服务效率。

在这些场景中，数据工程师需要负责从各种数据源（如 Salesforce Objects, Heroku Postgres, S3, Snowflake 等）提取数据，通过 CRM Analytics (前身为 Tableau CRM / Einstein Analytics) 的数据准备工具 (Data Prep Recipe) 进行清洗、转换、特征工程，最终构建一个适合进行建模的扁平化数据集 (Dataset)。

原理说明

要理解 Einstein Discovery 如何工作，我们可以将其生命周期分解为几个关键阶段，并从数据工程师的视角来审视每个阶段。

1. 数据准备 (Data Preparation)

这是我们的主战场。一切始于一个高质量的 CRM Analytics Dataset。这个数据集通常不是单一 Salesforce 对象的简单映射，而是一个通过数据准备流程精心构建的宽表。

数据集成： 使用 CRM Analytics Connectors 连接 Salesforce 内外部数据源。例如，将 Salesforce 的 Account 和 Case 数据与外部系统的用户行为日志数据相结合。
数据转换： 在 Data Prep Recipe 中执行各种转换操作。这包括：
- 清洗 (Cleanse)： 处理缺失值（例如，用平均值、中位数或固定值填充）、标准化格式（如日期、文本大小写）。
- 丰富 (Enrich)： 创建派生字段，即进行特征工程 (Feature Engineering)。例如，从创建日期和关闭日期计算“案例解决时长”，或从最后活动日期计算“客户不活跃天数”。这些派生特征往往比原始字段对模型更有预测力。
- 聚合 (Aggregate)： 将数据从细粒度聚合到分析所需的粒度。例如，将一个客户所有的交易记录聚合为“总交易额”、“平均客单价”、“最近购买日期”等指标。

最终目标是创建一个扁平化的分析数据集，其中每一行代表一个独立的观察单位（如一个商机、一个客户），每一列代表一个潜在的预测变量 (Predictor) 或结果变量 (Outcome)。

2. 故事创建 (Story Creation)

当数据集准备就绪后，业务分析师或管理员会基于这个数据集创建一个 Story。一个 Story 定义了分析的目标。你需要指定：

结果变量 (Outcome Variable)： 你想要最大化或最小化的业务目标。例如，“赢单率”(IsWon) 或“客户流失”(Churned)。
分析类型： Einstein Discovery 会自动运行数千次统计检查，使用 R 语言的统计包在后台进行分析，探索数据中所有变量之间的相关性。它会生成描述性洞察 (Descriptive Insights)，告诉你“发生了什么”，例如，“当行业为‘金融’时，平均赢单率更高”。

3. 模型生成与评估 (Model Generation & Evaluation)

在创建 Story 的过程中，Einstein Discovery 会自动生成一个预测模型。作为数据工程师，我们需要关注模型的评估指标，因为它们直接反映了我们准备的数据的质量。

模型指标： 关注 AUC (Area Under Curve) 或 Gini 系数等指标，它们衡量了模型的整体预测能力。如果指标过低，通常意味着数据中的信噪比太低，或者我们没有捕捉到关键的预测特征。这时候，我们就需要回到数据准备阶段，进行更多的特征工程。
偏见检测 (Bias Detection)： Einstein Discovery 内置了偏见检测功能。它能识别模型是否对某个敏感属性（如地理位置、性别等）产生了不公平的预测倾斜。如果检测到偏见，我们需要检查源数据是否存在采样偏差或历史性偏见，并进行相应调整。

4. 模型部署与集成 (Model Deployment & Integration)

模型经过评估和优化后，可以被部署到 Salesforce 平台。部署后，它可以以多种形式被消费：

Lightning 页面集成： 在记录页面（如 Opportunity 或 Account 页面）上显示预测得分和Top Predictors（影响预测结果的最重要因素）。
Apex 调用： 开发人员可以通过 Apex 调用预测服务，在自定义业务流程中获取预测结果。
数据回写： 我们可以配置将预测结果（如流失概率）和主要原因写回到 Salesforce 对象的字段中。这会生成新的数据，作为数据工程师，我们需要考虑如何监控和利用这些新生成的数据，甚至将其作为下一次模型迭代的输入。

示例代码

在构建 Einstein Discovery Story 之前，数据工程师经常需要使用 SAQL (Salesforce Analytics Query Language) 来探索和聚合数据，以验证数据准备的逻辑是否正确。以下是一个 SAQL 查询示例，它模拟了为“客户流失预测”模型准备数据的过程。该查询从未经处理的 Case 和 Account 数据中提取、聚合信息，生成可用于建模的特征。

假设我们有一个包含所有 Case 信息的 `CaseData` 数据集和一个包含客户信息的 `AccountData` 数据集。

-- This SAQL query prepares data for a customer churn prediction model.
-- We join Case data with Account data and aggregate metrics for each account.

-- Load the Case dataset and group by AccountId.
cases = load "CaseData";
cases_grouped = group cases by 'AccountId';

-- For each account, generate predictive features from its cases.
-- 1. Count the total number of cases.
-- 2. Count the number of high-priority cases.
-- 3. Calculate the average time to close a case (in days).
cases_aggregated = foreach cases_grouped generate
    cases.'AccountId' as 'AccountId',
    count(cases) as 'TotalCases',
    count(case cases.Priority == "High") as 'HighPriorityCases',
    avg(toDate(cases.'ClosedDate_sec_epoch') - toDate(cases.'CreatedDate_sec_epoch')) / (24 * 3600) as 'AvgResolutionDays';

-- Load the Account dataset.
accounts = load "AccountData";

-- Join the aggregated case metrics with the account information.
-- We use a left join to ensure all accounts are included, even those with no cases.
result = cogroup cases_aggregated by 'AccountId' left, accounts by 'Id';

-- Final projection to select fields for the Einstein Discovery dataset.
result = foreach result generate
    accounts.'Id' as 'AccountId',
    accounts.'Name' as 'AccountName',
    accounts.'Industry' as 'Industry',
    accounts.'AnnualRevenue' as 'AnnualRevenue',
    -- Use coalesce to handle accounts with no cases, setting their metrics to 0.
    coalesce(cases_aggregated.'TotalCases', 0) as 'TotalCases',
    coalesce(cases_aggregated.'HighPriorityCases', 0) as 'HighPriorityCases',
    coalesce(cases_aggregated.'AvgResolutionDays', 0) as 'AvgResolutionDays',
    -- This 'IsChurned' field would be our outcome variable for the model.
    accounts.'IsChurned__c' as 'IsChurned';

-- Limit the output for preview purposes.
result = limit result 2000;

注释说明：

load "CaseData": 加载用于分析的数据集。
group cases by 'AccountId': 按客户 ID 对案例进行分组，为后续聚合做准备。
foreach ... generate: 这是 SAQL 的核心部分，用于计算每个分组的聚合指标。我们在这里创建了三个关键特征：总案例数、高优先级案例数和平均解决天数。
avg(toDate(...) - toDate(...)): 这是一个典型的特征工程示例，通过两个日期字段计算出一个新的、更有意义的度量。
cogroup ... left: 将聚合后的案例指标与客户主数据进行左连接，确保即使没有案例的客户也被包含在最终数据集中。
coalesce(...): 用于处理 `null` 值。对于没有案例的客户，其聚合指标会是 `null`，我们使用 `coalesce` 将其替换为 0，这对于机器学习模型是必要的。

这段 SAQL 查询的逻辑，可以完全在 CRM Analytics 的 Data Prep Recipe 中通过图形化界面实现。但通过 SAQL，数据工程师可以更精确地控制和验证数据转换逻辑。

注意事项

作为数据工程师，在支持 Einstein Discovery 项目时，必须牢记以下几点：

权限和许可： 确保用户拥有正确的许可证（通常是 CRM Analytics Plus 或 Einstein Predictions）和权限集。需要“CRM Analytics Plus 管理员/用户”和“Einstein Discovery 用户”等权限才能创建和管理数据集、故事和模型。
数据限制：
- 数据集行数： CRM Analytics 数据集有行数限制（具体取决于许可证类型）。对于超大规模数据，可能需要预先进行采样或聚合。
- 故事创建限制： Einstein Discovery 故事分析的数据行数上限为 2000 万行，列数上限为 50 列。在设计数据集时必须考虑这一点，避免包含过多无关的列。
数据质量与偏见：
- 相关性： 确保数据集中的字段与你想要预测的结果变量有逻辑上的关联。包含大量不相关的“噪音”字段会降低模型性能。
- 数据分布： 检查关键字段的数据分布。如果结果变量极度不平衡（例如，99.9% 的客户未流失，0.1% 流失），模型可能难以学习，需要采用过采样（Oversampling）或欠采样（Undersampling）等技术在数据准备阶段进行处理。
- 数据泄露 (Data Leakage)： 确保预测变量中不包含在预测发生时点之后才能获知的信息。例如，在预测商机是否赢单时，不能使用“赢单后的客户满意度”作为特征。
API 使用： 如果通过 API（如 Einstein Prediction Service API）大规模调用预测，要注意 API 调用限制和性能。批量预测通常比单次实时预测更高效。

总结与最佳实践

对于 Salesforce 数据工程师而言，Einstein Discovery 是一个强大的盟友，它将我们精心准备的数据转化为驱动业务决策的智能。我们的成功不仅仅在于构建数据管道，更在于构建能够训练出精准、公正、可解释模型的优质数据集。

最佳实践总结：

以终为始： 在开始数据准备之前，与业务方紧密合作，清晰地定义要预测的业务问题和结果变量。
迭代式开发： 不要试图一次性构建一个完美的数据集。先从一个包含核心特征的简单数据集开始，创建第一个版本的 Story。然后根据 Einstein 提供的洞察，返回 Data Prep Recipe 进行迭代，添加更多有意义的特征。
文档化您的数据管道： 详细记录数据源、转换逻辑和特征工程的定义。这对于模型的维护、解释和未来的优化至关重要。
监控数据和模型： 部署模型不是终点。我们需要持续监控输入数据的分布是否发生变化（数据漂移），以及模型性能是否随时间下降。建立相应的监控和告警机制，在模型性能衰减时及时进行再训练。

最终，Einstein Discovery 的成功，是业务理解、数据工程和数据科学三者结合的产物。作为数据工程师，我们是这一切的基石，为智能预测提供了坚实可靠的数据基础。

Salesforce Einstein AI 编程实践：开发者视角下的智能预测

九月 15, 2025

阅读全文

Salesforce中文网