精通 Salesforce Big Objects：大规模数据架构指南

九月 10, 2025

作为一名 Salesforce 架构师，我的核心职责之一是设计可扩展、高性能且成本效益高的解决方案。当客户面临处理数亿甚至数十亿条记录的挑战时，标准的 Salesforce 对象模型会遇到性能瓶颈和治理限制。此时，Big Objects 便成为了我们架构工具箱中不可或缺的利器。

背景与应用场景

在传统的 Salesforce 数据模型中，当一个对象的数据量超过数百万条时，我们称之为处理海量数据 (Large Data Volumes, LDV)。这会直接影响报表性能、SOQL 查询速度、数据加载时间，并可能触及平台的各种限制。为了应对这些挑战，Salesforce 推出了 Big Objects，这是一种专为在 Salesforce 平台上存储和管理海量数据而设计的解决方案。

Big Objects 的底层技术基于 Apache HBase 等大数据技术，使其能够提供一致的性能，无论数据量是百万级还是十亿级。它们并非旨在替代标准或自定义对象，而是作为一种补充，用于处理特定的大数据场景。

从架构师的角度来看，以下是 Big Objects 的典型应用场景：

客户 360 度视图归档

企业希望记录客户在网站、App 或其他数字渠道上的每一次交互，例如页面浏览、点击、购买历史等。这些数据量巨大，但对于分析客户行为和提供个性化体验至关重要。将这些历史交互数据存储在 Big Object 中，既能保留完整的数据足迹，又不会影响核心 CRM 对象的性能。

审计与事件监控

对于金融、医疗等受严格监管的行业，需要长期保留详细的审计日志、系统访问记录或 API 调用日志。Big Objects 提供了一个理想的归档层，用于存储这些不可变的海量日志数据，以满足合规性要求。

物联网 (IoT) 数据集成

来自传感器、智能设备等物联网来源的数据流通常是连续且海量的。将这些设备状态、遥测数据或事件数据直接写入 Big Object，可以有效地捕获和存储这些信息，以供后续分析或触发特定业务流程。

历史数据归档

随着业务的增长，系统中的旧记录（如已关闭超过5年的 Case、过期的 Opportunity）会不断累积。将这些记录从标准对象迁移到 Big Object 中进行归档，可以显著提升现有对象的性能，降低存储成本，同时这些历史数据仍然可以通过 API 或特定的分析工具进行查询。

原理说明

要正确地设计和使用 Big Objects，理解其核心原理至关重要。它与我们熟悉的标准对象在底层机制上有很大差异。

对象定义与索引

Big Objects 通过元数据 API (Metadata API) 进行定义，其 API 名称以后缀 `__b` 结尾。最关键的设计决策是定义它的索引 (Index)。这个索引由一个或多个字段组成，并且是 Big Object 的主键 (Primary Key)。字段在索引中的顺序至关重要，因为它决定了数据的物理存储顺序和查询性能。

索引是高效查询 Big Object 的唯一途径。 当你使用标准 SOQL 查询时，查询条件 (WHERE 子句) 必须完全匹配索引中定义的所有字段，并且遵循其顺序。任何不使用完整索引的查询都会导致全表扫描，性能极差甚至超时。

数据操作的限制

Big Objects 被设计为不可变或追加型数据存储。这意味着：

不支持标准 UI： 你无法在 Salesforce 标准界面上创建、编辑或删除 Big Object 记录。
不支持触发器、流程和验证规则： 复杂的业务逻辑无法直接应用于 Big Object。
数据插入： 主要通过 Apex `Database.insertImmediate()` 方法或 Bulk API 2.0 进行批量插入。
数据更新与删除： 不支持标准的 `update` 操作。删除操作可以通过 `Database.deleteImmediate()` 方法实现，但这在处理大规模数据时效率不高。通常，数据被视为一次写入、多次读取 (Write-Once, Read-Many)。

查询机制

查询 Big Objects 有两种主要方式：

标准 SOQL (Standard SOQL)： 仅适用于小规模、高精度的查询。如前所述，查询条件必须严格匹配索引的所有字段。这种方式是同步的，可以快速返回少量记录。
异步 SOQL (Async SOQL)： 这是处理 Big Object 中海量数据的主要查询方式。它在后台异步执行，非常适合处理数百万条记录的聚合或筛选。查询作业完成后，结果会存储在一个目标对象（标准对象、自定义对象或另一个 Big Object）中，供你后续处理。

示例代码

以下示例将展示如何定义、插入和查询一个 Big Object。假设我们要创建一个 Big Object `Customer_Interaction__b` 来存储客户互动日志。

1. 定义 Big Object (Metadata API)

我们需要创建一个 `.object-meta.xml` 文件来定义 Big Object 的结构，包括字段和索引。

<?xml version="1.0" encoding="UTF-8"?>
<CustomObject xmlns="http://soap.sforce.com/2006/04/metadata">
    <deploymentStatus>Deployed</deploymentStatus>
    <fields>
        <fullName>Account__c</fullName>
        <label>Account</label>
        <referenceTo>Account</referenceTo>
        <relationshipName>Customer_Interactions</relationshipName>
        <required>true</required>
        <type>Lookup</type>
    </fields>
    <fields>
        <fullName>Interaction_DateTime__c</fullName>
        <label>Interaction DateTime</label>
        <required>true</required>
        <type>DateTime</type>
    </fields>
    <fields>
        <fullName>Interaction_Type__c</fullName>
        <label>Interaction Type</label>
        <length>20</length>
        <required>true</required>
        <type>Text</type>
    </fields>
    <fields>
        <fullName>Details__c</fullName>
        <label>Details</label>
        <length>255</length>
        <required>false</required>
        <type>Text</type>
    </fields>
    <indexes>
        <fullName>CustomerInteractionIndex</fullName>
        <label>Customer Interaction Index</label>
        <fields>
            <name>Account__c</name>
            <sortDirection>ASC</sortDirection>
        </fields>
        <fields>
            <name>Interaction_DateTime__c</name>
            <sortDirection>DESC</sortDirection>
        </fields>
    </indexes>
    <label>Customer Interaction</label>
    <pluralLabel>Customer Interactions</pluralLabel>
</CustomObject>

注释： 在这个定义中，我们创建了一个名为 `CustomerInteractionIndex` 的索引。它由 `Account__c` (升序) 和 `Interaction_DateTime__c` (降序) 组成。这意味着查询某个特定客户最近的互动记录将会非常高效。

2. 使用 Apex 插入数据

可以使用 `Database.insertImmediate()` 方法将记录直接插入 Big Object。

// 创建一个 Big Object 记录列表
List<Customer_Interaction__b> interactions = new List<Customer_Interaction__b>();

// 填充记录数据
Customer_Interaction__b interaction1 = new Customer_Interaction__b(
    Account__c = '001xx000003DHPxAAO', // 关联的客户 ID
    Interaction_DateTime__c = Datetime.now(),
    Interaction_Type__c = 'Web Visit',
    Details__c = 'User viewed the pricing page.'
);
interactions.add(interaction1);

Customer_Interaction__b interaction2 = new Customer_Interaction__b(
    Account__c = '001xx000003DHPxAAO', // 关联的客户 ID
    Interaction_DateTime__c = Datetime.now().addMinutes(-30),
    Interaction_Type__c = 'Email Open',
    Details__c = 'User opened the Q3 newsletter.'
);
interactions.add(interaction2);

// 使用 insertImmediate 插入数据
Database.SaveResult[] results = Database.insertImmediate(interactions);

// 检查插入结果
for (Database.SaveResult res : results) {
    if (res.isSuccess()) {
        System.debug('Successfully inserted Big Object record. ID: ' + res.getId());
    } else {
        for (Database.Error err : res.getErrors()) {
            System.debug('Error inserting Big Object record: ' + err.getStatusCode() + ': ' + err.getMessage());
        }
    }
}

注释： `insertImmediate` 是一个同步方法，适用于小批量插入。对于百万级数据的加载，强烈建议使用 Bulk API 2.0。

3. 使用 Async SOQL 查询数据

这是查询 Big Object 海量数据的推荐方式。以下示例演示了如何启动一个 Async SOQL 作业，将结果存储到一个名为 `Interaction_Archive__c` 的自定义对象中。

// 定义目标对象和查询
AsyncSOQLOptions options = new AsyncSOQLOptions();
options.targetEntity = 'Interaction_Archive__c'; // 结果存储的目标对象
options.targetFieldMap = new Map<String, String>{
    'Account_Lookup__c' => 'Account__c',
    'Interaction_Date_Time__c' => 'Interaction_DateTime__c',
    'Interaction_Type__c' => 'Interaction_Type__c'
};

// Async SOQL 查询语句
String query = 'SELECT Account__c, Interaction_DateTime__c, Interaction_Type__c ' +
               'FROM Customer_Interaction__b ' +
               'WHERE Account__c = \'001xx000003DHPxAAO\'';

// 启动异步查询作业
AsyncApexJob job = System.enqueueAsyncSOQL(query, options);

// 输出作业 ID，用于后续状态跟踪
System.debug('Started Async SOQL job with ID: ' + job.Id);

注释： `System.enqueueAsyncSOQL` 会返回一个 `AsyncApexJob` 的 ID。你可以通过查询 `AsyncApexJob` 对象来监控作业的状态（`Status` 字段），并在其完成后从目标对象 `Interaction_Archive__c` 中获取结果。

注意事项

作为架构师，在方案中引入 Big Objects 之前，必须仔细评估以下几点：

权限和可见性

用户需要对 Big Object 拥有 `Read` 和 `Create` 权限。要执行 Async SOQL，用户通常需要 "View All Data" 权限，或者在特定情况下 "Query All Files" 权限。权限模型比标准对象简单，没有复杂的共享规则。

API 与治理限制

Async SOQL 有其自身的限制，例如，每个组织在 24 小时内可以提交的作业数量是有限的（通常是 10,000 个）。在设计批量处理和分析流程时，必须将这些限制考虑在内。

索引设计是关键

再次强调，索引的设计不可逆转。一旦 Big Object 创建并包含数据，修改索引将非常困难（通常需要数据迁移）。必须在设计阶段就与业务和技术团队充分沟通，明确主要的查询模式，并据此设计索引。

无 UI 和分析工具的集成

由于没有标准 UI，无法通过标准报表和仪表板 (Reports and Dashboards) 对 Big Object 数据进行可视化。你需要依赖外部工具或 Tableau CRM (原 Einstein Analytics)。在架构设计中，必须包含数据可视化的解决方案。

总结与最佳实践

Big Objects 是 Salesforce 平台解决海量数据存储和查询问题的强大工具，但它是一个高度专业化的解决方案，而非通用数据库。

作为架构师，我总结出以下最佳实践：

明确目的： 仅在处理归档、审计日志、IoT 或事件历史等 "一次写入、多次读取" 的海量数据集时才考虑使用 Big Objects。不要用它来替代需要事务处理、频繁更新和复杂业务逻辑的标准对象。
索引优先： 将 80% 的设计精力投入到索引的定义上。确保索引字段的顺序、数据类型和基数 (cardinality) 最优，以匹配最关键和最频繁的查询场景。
规划数据生命周期： 制定完整的数据加载 (Ingestion)、查询 (Retrieval) 和归档 (Archiving) 策略。对于数据加载，优先考虑 Bulk API 2.0；对于查询，优先考虑 Async SOQL。
集成分析平台： 如果业务需要对 Big Object 中的数据进行分析和可视化，请尽早将 Tableau CRM 或其他兼容的 BI 工具纳入整体架构设计中。
教育团队： 确保开发和管理团队充分理解 Big Objects 的特性和限制。他们需要知道这不是一个 "更大的自定义对象"，而是一种完全不同的技术，需要不同的技能和思维模式。

通过遵循这些原则，你可以成功地将 Big Objects 集成到你的 Salesforce 架构中，构建出能够应对未来数据爆炸式增长的、稳健且可扩展的解决方案。

Salesforce中文网