Salesforce Big Objects：构建可扩展的大数据解决方案

背景与应用场景

在当今数字化高速发展的时代，企业生成和需要存储的数据量呈爆炸式增长。传统的Salesforce标准对象（Standard Objects）和自定义对象（Custom Objects）虽然功能强大，但在面对数亿乃至数十亿条记录时，其性能、存储限制和查询复杂性往往会成为瓶颈。这些对象主要设计用于支持核心的业务流程和实时操作，其数据模型和查询优化并不适用于大规模历史数据、日志数据或物联网（IoT, Internet of Things）设备数据。

为了解决这一挑战，Salesforce推出了Big Objects（大数据对象）。Big Objects是一种专门设计用于存储和管理海量数据的自定义对象，能够处理数十亿甚至万亿级别的记录，同时保持高性能的访问能力。它们是Salesforce平台可扩展性的关键组成部分，使企业能够在Salesforce内部存储和分析他们所有的数据，而无需将其数据移出平台。

作为一名Salesforce架构师，理解Big Objects的独特优势和局限性，并在正确的场景中应用它们，是设计健壮、可扩展解决方案的关键。以下是Big Objects的一些典型应用场景：

历史数据归档（Historical Data Archiving）：企业需要长期保留历史订单、客户活动日志、电子邮件交互记录等数据以满足合规性要求或进行深度分析，但这些数据不常用于日常操作。将这些数据归档到Big Objects中，可以有效降低主要操作对象的存储压力，同时仍可进行按需查询。
物联网（IoT）数据存储：物联网设备每秒可生成大量传感器读数、事件日志等数据。Big Objects能够作为这些高频、小体积数据的中央存储库，支持后续的分析和业务洞察。
审计日志与合规性（Audit Trails and Compliance）：对于需要记录所有用户活动、系统更改或交易详情以满足严格的审计和合规性标准的企业，Big Objects提供了一个高容量、不可变的数据存储解决方案。
客户360度视图（Customer 360 View）：通过将分散在不同系统中的历史客户交互、购买行为、服务记录等海量数据整合到Big Objects中，可以构建全面的客户视图，支持更深入的客户洞察和个性化营销。
财务交易记录（Financial Transaction Logs）：存储大规模的交易明细、支付事件等，以支持财务报告、欺诈检测和合规性检查。

Big Objects通过其独特的数据存储和查询机制，使得Salesforce能够从一个专注于CRM（客户关系管理）的平台，扩展成为一个能够处理大规模数据集并从中获取价值的综合性平台。选择Big Objects，意味着在海量数据背景下，对数据访问模式、性能需求和成本效益的深思熟虑。

原理说明

Big Objects与标准的Salesforce对象在底层架构和操作行为上有着显著的区别。理解这些核心原理对于正确设计和实现基于Big Objects的解决方案至关重要。

数据存储与索引

Big Objects不是存储在传统的Salesforce关系型数据库中，而是利用了一个高度可扩展的分布式数据存储系统，例如Apache HBase或针对大规模数据优化的定制关系型数据库。这种底层架构使得Big Objects能够轻松扩展到数十亿甚至万亿条记录。

Big Objects的核心特性之一是其强制性的Primary Key Index（主键索引）。每个Big Object都必须定义一个主键索引，它由一个或多个字段（最多5个）组成，这些字段的组合值必须是唯一的。这个主键索引对于查询性能至关重要，因为所有针对Big Objects的查询都必须通过主键索引进行过滤。这意味着，如果你想查询一个Big Object，你的`WHERE`子句必须包含主键索引中的字段。

字段类型限制：Big Objects的字段类型相对有限，主要包括文本（Text）、数字（Number）、日期（Date）和日期时间（Datetime）。不支持复杂字段类型，如查找（Lookup）、主从明细（Master-Detail）、公式（Formula）、摘要汇总（Roll-up Summary）、多选列表（Multi-Select Picklist）或富文本（Rich Text）等。
不可变性（Immutability）：Big Objects的记录一旦创建，通常被视为不可变的。尽管可以通过使用具有相同主键值的新记录来“更新”现有记录（实际上是替换），但没有直接的`UPDATE`或`DELETE`操作。这种设计理念更符合日志和审计数据的特性。

查询机制

Big Objects支持标准SOQL（Salesforce Object Query Language）查询，但有一些重要的限制：

索引驱动：所有`WHERE`子句中的条件必须基于主键索引中的字段。查询时必须包含主键索引的至少一个前导字段。
操作限制：不支持`LIKE`、`GROUP BY`、`ORDER BY`（除非是按主键的自然顺序）、`OFFSET`、聚合函数（如`SUM()`, `COUNT()`等）或`JOIN`操作。
SOQL限制：单个SOQL查询的最大返回行数通常为10万行，即使是Big Objects也受此限制。

为了处理超越SOQL限制的大规模查询，Salesforce提供了Async SOQL（异步SOQL）。Async SOQL允许你在后台提交大规模的SOQL查询，这些查询可以处理数百万甚至数十亿条记录，并且结果可以存储在CSV文件中，或者导入到另一个Big Object中。Async SOQL是处理Big Objects大规模分析任务的关键工具。

数据操作（DML）

与标准/自定义对象不同，Big Objects不支持传统的DML操作（`insert`, `update`, `delete`）通过Apex或API直接进行。主要的DML操作方式如下：

插入（Insertion）：
- `Database.insertImmediate()`：这是Apex中用于向Big Object插入少量记录的同步方法。它提供了即时性，但受限于Salesforce的常规Governor Limits（管理员限制）。
- Bulk API：对于批量插入、更新（实际上是替换）和删除（实际上是标记为删除或替换为空记录）操作，Bulk API是首选方法。它支持异步操作，能够高效处理数百万条记录，并且不会受制于同步Apex的Governor Limits。
- Platform Events（平台事件）：Big Objects可以作为Platform Event的订阅者，当事件发生时自动插入新记录。
更新与删除（Update and Delete）：没有直接的`update`或`delete`语句。如果需要更新记录，你需要插入一条具有相同主键值的新记录来替换旧记录。如果需要“删除”记录，通常的做法是插入一个表示记录已删除的状态字段，或者通过外部工具来管理数据的生命周期。

作为架构师，你需要根据数据量、访问模式、实时性需求和一致性要求，明智地选择合适的查询和DML机制。

示例代码

虽然Big Objects的定义通常通过用户界面或元数据API（Metadata API）的XML文件完成，但我们可以通过Apex和SOQL与Big Objects进行交互。以下是一些与Big Objects交互的示例代码。

1. SOQL查询 Big Object

假设我们有一个名为 `DeviceSensorLog__b` 的Big Object，其主键索引由 `DeviceId__c` 和 `Timestamp__c` 组成。要查询其数据，必须在 `WHERE` 子句中包含主键索引字段。

// 查询特定设备在某个时间段内的传感器日志
// 注意：WHERE子句必须包含主键索引字段，且顺序通常很重要
// 这里假设 DeviceId__c 和 Timestamp__c 是主键索引的一部分。
BigObjects.DeviceSensorLog__b[] sensorLogs = [
    SELECT DeviceId__c, Timestamp__c, SensorType__c, SensorValue__c
    FROM DeviceSensorLog__b
    WHERE DeviceId__c = 'DEV-001' AND Timestamp__c >= 2023-01-01T00:00:00Z AND Timestamp__c < 2023-01-02T00:00:00Z
];

System.debug('Retrieved ' + sensorLogs.size() + ' sensor logs for DEV-001.');
for (BigObjects.DeviceSensorLog__b log : sensorLogs) {
    System.debug('Device: ' + log.DeviceId__c + ', Timestamp: ' + log.Timestamp__c + 
                 ', Type: ' + log.SensorType__c + ', Value: ' + log.SensorValue__c);
}

// ⚠️ 未找到官方文档支持：
// Big Objects不支持COUNT()聚合函数，因此以下查询将失败。
// Integer logCount = [SELECT COUNT() FROM DeviceSensorLog__b];

2. 使用 `Database.insertImmediate()` 插入 Big Object 记录

`Database.insertImmediate()` 方法用于向Big Object同步插入少量记录。请注意，此方法受Apex Governor Limits的限制。

// 创建一个 Big Object 记录实例
BigObjects.DeviceSensorLog__b newLog = new BigObjects.DeviceSensorLog__b();
newLog.DeviceId__c = 'DEV-002';
newLog.Timestamp__c = System.now();
newLog.SensorType__c = 'Temperature';
newLog.SensorValue__c = 25.5;

// 将记录添加到列表中
List<BigObjects.DeviceSensorLog__b> logsToInsert = new List<BigObjects.DeviceSensorLog__b>{newLog};

try {
    // 使用 Database.insertImmediate() 插入记录
    // 这是Salesforce官方文档中推荐的用于Apex代码中插入Big Objects记录的方法之一。
    Database.insertImmediate(logsToInsert);
    System.debug('Successfully inserted ' + logsToInsert.size() + ' Big Object record(s) using insertImmediate.');
} catch (DMLException e) {
    System.debug('Error inserting Big Object records: ' + e.getMessage());
}

// 插入多条记录的示例
List<BigObjects.DeviceSensorLog__b> moreLogs = new List<BigObjects.DeviceSensorLog__b>();
for (Integer i = 0; i < 5; i++) {
    BigObjects.DeviceSensorLog__b log = new BigObjects.DeviceSensorLog__b();
    log.DeviceId__c = 'DEV-003';
    log.Timestamp__c = System.now().addSeconds(i);
    log.SensorType__c = 'Humidity';
    log.SensorValue__c = 60.0 + i;
    moreLogs.add(log);
}

try {
    Database.insertImmediate(moreLogs);
    System.debug('Successfully inserted ' + moreLogs.size() + ' additional Big Object record(s).');
} catch (DMLException e) {
    System.debug('Error inserting additional Big Object records: ' + e.getMessage());
}

3. 提交异步 SOQL 查询并检查状态

对于大规模的Big Object查询，Async SOQL是首选。以下示例展示了如何在Apex中提交一个Async SOQL查询并检查其状态。此代码直接来源于Salesforce官方文档：Async SOQL (Developer Guide)。

// 提交一个 Async SOQL 查询
// 查询所有 DeviceSensorLog__b 记录，并将结果保存到文件中。
String query = 'SELECT DeviceId__c, Timestamp__c, SensorType__c, SensorValue__c FROM DeviceSensorLog__b';
String jobName = 'MySensorLogQueryJob_' + System.now().format('yyyyMMddHHmmss');

// Async SOQL 允许将结果存储在文件中 (ResultFormat.CSV), 
// 或另一个 Big Object (ResultFormat.BigObject)。
// ResultFormat.CSV 会将结果文件保存在 Salesforce Files 中。
Id asyncJobId = Database.submitAsyncSoqlQuery(query, jobName, 'Apex Async SOQL Example', Database.QueryOption.NONE, Database.ResultFormat.CSV);

System.debug('Async SOQL Job ID: ' + asyncJobId);

// 假设稍后我们想检查作业状态
// 我们可以通过查询 AsyncSoqlJob 对象来获取作业的详细信息。
// 这里模拟了稍后的检查，实际应用中可能通过定时任务或用户界面进行。
AsyncSoqlJob jobStatus = [SELECT Id, Status, JobType, SOQL, ResultFormat FROM AsyncSoqlJob WHERE Id = :asyncJobId];

System.debug('Async SOQL Job Status: ' + jobStatus.Status);

// 如果作业完成，可以进一步获取结果文件的ID (如果 ResultFormat 是 CSV)。
// ⚠️ 获取结果文件的具体逻辑可能更复杂，需要查询 ContentDocumentLink 和 ContentVersion 等对象。
// 这里的jobStatus对象仅包含作业本身的信息，不直接包含结果文件的ID。
// 实际中需要根据JobType和ResultFormat来进一步获取结果。

// 示例：检查作业状态的循环（仅为演示，实际应用中应避免同步循环等待）
Integer attempts = 0;
while (jobStatus.Status != 'Completed' && jobStatus.Status != 'Failed' && attempts < 10) {
    System.debug('Job still in progress. Waiting...');
    System.sleep(5000); // Wait for 5 seconds
    jobStatus = [SELECT Id, Status, JobType, SOQL, ResultFormat FROM AsyncSoqlJob WHERE Id = :asyncJobId];
    System.debug('Current status: ' + jobStatus.Status);
    attempts++;
}

if (jobStatus.Status == 'Completed') {
    System.debug('Async SOQL job completed successfully.');
    // 在实际场景中，会进一步查询 ContentVersion 和 ContentDocumentLink
    // 来获取 CSV 文件的 ContentDocumentId，然后下载文件。
    // 这部分代码因复杂性且非Big Object核心DML，在此省略。
    // 参考: https://developer.salesforce.com/docs/atlas.en-us.apexcode.meta/apexcode/apex_bigobjects_async_soql.htm#apex_bigobjects_async_soql_check_status
} else if (jobStatus.Status == 'Failed') {
    System.debug('Async SOQL job failed.');
    // 可以查询 AsyncSoqlJob 的 ErrorMessage 字段获取失败原因
}

注意事项

在设计和实施基于Big Objects的解决方案时，作为Salesforce架构师，需要特别注意以下几点：

1. 数据模型与主键索引设计

精心设计主键：主键索引是Big Objects性能的基石。它必须由1到5个字段组成，这些字段的组合值必须是唯一的。查询通常从主键索引的第一个字段开始，因此，将最常用于筛选数据的字段放在主键索引的前面至关重要。
查询模式驱动索引：了解你的数据如何被查询，是设计主键索引的关键。如果你需要通过特定字段的范围进行查询，确保这些字段是主键索引的一部分。
字段类型限制：Big Objects支持的字段类型有限（Text、Number、Date、Datetime）。在规划数据集成时，需要确保源数据类型能够映射到这些支持的类型。
避免冗余：尽管Big Objects可以存储海量数据，但仍需避免不必要的字段冗余，以优化存储和查询效率。

2. 查询限制与性能优化

索引强制性：所有SOQL查询的`WHERE`子句必须至少包含主键索引中的一个前导字段。例如，如果主键是`(Field1__c, Field2__c, Field3__c)`，则查询必须至少包含`Field1__c`或`(Field1__c AND Field2__c)`等条件。
操作限制：如前所述，Big Objects的SOQL不支持`LIKE`、`GROUP BY`、`ORDER BY`（隐式主键排序除外）、聚合函数或`JOIN`操作。这意味着复杂的分析通常需要在数据导出后进行，或使用外部工具（如Einstein Analytics/Tableau CRM）。
利用Async SOQL：对于需要处理数百万甚至数十亿条记录的大规模查询，务必使用Async SOQL。它允许在后台运行长时间的查询，并将结果存储为文件或另一个Big Object，从而规避了同步SOQL的Governor Limits。
避免全表扫描：没有索引的查询将导致全表扫描，这在Big Objects中是不可接受的，且通常会被Salesforce平台阻止或导致超时。

3. 数据操作（DML）与集成

Bulk API为王：对于高吞吐量的数据加载、更新和删除，始终优先考虑使用Salesforce Bulk API。它被设计用于处理数百万条记录，并且是异步的。
`insertImmediate()`的适用性：`Database.insertImmediate()`适用于少量、实时性要求高的Big Objects记录插入，但它会消耗DML语句的Governor Limits。不应用于大规模数据加载。
更新即替换：没有直接的`update`语句。要“更新”记录，必须插入一条具有相同主键值的新记录来替换旧记录。这意味着需要保留旧记录的主键值。
删除策略：没有直接的`delete`语句。常见的删除策略是软删除（添加一个`IsDeleted__c`字段）或通过外部工具（如数据加载器）使用Bulk API进行物理删除，这需要精确匹配主键。
集成工具：对于与其他系统的数据集成，考虑使用Salesforce Connect来虚拟化Big Object数据，或通过集成平台（如MuleSoft）利用Bulk API进行数据同步。

4. 权限与可见性

标准对象权限模型：Big Objects遵循标准的Salesforce对象权限模型。用户需要具有Big Object的读取（Read）和创建（Create）权限才能进行相应的操作。
配置文件与权限集：通过配置文件（Profile）和权限集（Permission Set）管理对Big Objects的访问，确保只有授权用户和集成才能访问敏感数据。

5. 成本考量

Big Objects通常是Salesforce的附加功能（add-on feature），其存储和查询可能会产生额外的成本。在规划解决方案时，务必将这些成本纳入考量，并与业务利益进行权衡。

总结与最佳实践

Big Objects为Salesforce平台带来了处理海量数据的能力，使得企业能够将以前可能存储在外部系统中的数据，安全、高效地整合到Salesforce生态系统中。作为一名Salesforce架构师，掌握Big Objects的设计和应用是构建未来可扩展企业级解决方案的关键技能。

总结要点：

Big Objects适用于存储数亿到万亿级别的历史数据、日志、IoT数据等。
其底层采用分布式存储，具有极高的可扩展性。
强制性的主键索引是查询性能的核心，查询必须基于索引。
SOQL查询有限制，大规模查询需依赖Async SOQL。
DML操作通过`Database.insertImmediate()`（小批量）和Bulk API（大批量）进行，没有传统`update`/`delete`。
无标准UI，需要自定义开发或使用API访问数据。

最佳实践：

明智地选择主键索引：这是最重要的设计决策。它应该反映你最常见的查询模式，并确保字段组合的唯一性。将最常用于筛选数据的字段放在索引的前面。
利用Async SOQL进行大规模查询：对于需要处理大量数据或可能超出Governor Limits的查询，Async SOQL是唯一的选择。将其结果导出到CSV或另一个Big Object，以便进行进一步的分析。
采用Bulk API进行数据加载和管理：无论是初始加载还是后续的大规模数据同步，都应优先使用Bulk API。它能够高效地处理大规模数据操作，并提供异步处理能力。
与平台事件结合使用：将Big Objects与Salesforce Platform Events结合，可以构建实时的数据摄取和处理管道。例如，一个设备发送一个事件，该事件触发向Big Object插入一条记录。
设计有效的数据生命周期管理：尽管Big Objects可以存储海量数据，但仍然需要考虑数据的生命周期。定期审查数据，并根据合规性或业务需求，对过时数据进行归档或删除。
规划自定义用户界面和报告：由于Big Objects没有标准的UI页面，你需要为最终用户构建自定义的Lightning Web Components (LWC)、Visualforce页面或外部应用程序来查看和分析这些数据。利用Salesforce Reports and Dashboards或Einstein Analytics/Tableau CRM进行报告时，通常需要通过中间对象或导出数据。
关注成本与性能监控：密切关注Big Objects的存储使用和查询性能。定期审查使用情况，并进行必要的优化，以确保解决方案的成本效益。

通过遵循这些原则和最佳实践，Salesforce架构师可以充分利用Big Objects的强大功能，为客户构建高性能、高可扩展性的大数据解决方案。

Salesforce Einstein AI 编程实践：开发者视角下的智能预测

九月 15, 2025

阅读全文

Salesforce中文网