精通 Salesforce Batch Apex：处理海量数据的开发者指南

十一月 16, 2025

背景与应用场景

作为一名 Salesforce 开发人员，我们日常工作中不可避免地要与数据打交道。当数据量较小时，使用同步的 Apex (同步 Apex) 触发器或 Visualforce 控制器处理起来游刃有余。然而，当我们需要处理成千上万，甚至数百万条记录时，Salesforce 平台的 Governor Limits (管控限制) 就成了一道无法逾越的障碍。

这些限制，例如单个事务中 SOQL 查询不能超过 50,000 条记录、DML 操作不能超过 10,000 条记录、CPU 执行时间不能超过 10 秒等，是为了保护多租户环境的稳定性和性能而设定的。任何试图在单个同步事务中处理大规模数据的操作，都会轻易地触发这些限制，导致程序异常终止。那么，当业务需求要求我们执行类似以下的操作时，应该怎么办呢？

数据清洗： 每晚对所有客户记录进行标准化处理，例如统一地址格式、更新过期的联系人信息。
批量更新： 根据新的业务规则，更新数十万个业务机会 (Opportunity) 的某个字段。
数据归档： 将三年前已经关闭的个案 (Case) 记录迁移到外部系统或自定义的归档对象中。
复杂计算： 为组织内的所有客户计算一个复杂的年度忠诚度得分，该计算涉及多个关联对象和大量数据。

为了解决这类大批量数据处理的难题，Salesforce 提供了 Asynchronous Apex (异步 Apex) 的解决方案，而 Batch Apex (批量 Apex) 正是其中最核心、最常用的工具。Batch Apex 允许我们将一个庞大的数据处理任务分解成一系列小的、可管理的“批次” (chunks)，每个批次都在其独立的事务中执行，从而巧妙地规避了单次事务的 Governor Limits。它为开发人员提供了一个强大而可靠的框架，用于在后台处理海量数据，而不会影响用户界面的性能和响应速度。

原理说明

Batch Apex 的核心是 `Database.Batchable` 接口。任何一个 Apex 类只要实现了这个接口，就可以作为一个 Batch 作业来执行。`Database.Batchable` 接口包含了三个必须实现的方法，这三个方法定义了一个 Batch 作业的完整生命周期：

1. `start` 方法

global (Database.QueryLocator | Iterable<sObject>) start(Database.BatchableContext bc)

这是 Batch 作业的起点。`start` 方法只会被调用一次，它的主要职责是收集并返回需要处理的所有记录。此方法的返回值决定了后续 `execute` 方法将要处理的数据范围。返回值可以是以下两种类型之一：

`Database.QueryLocator`： 这是最常用也是最高效的方式。通过一个简单的 SOQL 查询，你可以返回一个 `QueryLocator` 对象。使用 `QueryLocator` 的最大好处是，它可以支持查询高达 5000 万条记录，Salesforce 平台会在后台自动处理数据游标，极大地节省了堆内存 (Heap Size)。

`Iterable<sObject>`： 如果需要进行更复杂的数据准备逻辑，例如从外部 API 获取数据或执行多个前置查询来构建一个列表，则可以返回一个实现了 `Iterable` 接口的集合（例如 `List<sObject>`）。但需要注意，使用 `Iterable` 会受到更高的堆内存限制。

2. `execute` 方法

global void execute(Database.BatchableContext bc, List<sObject> scope)

这是 Batch 作业的核心处理逻辑所在。`start` 方法返回的数据集会被 Salesforce 平台自动分割成多个批次（默认每批 200 条记录），然后为每个批次调用一次 `execute` 方法。`execute` 方法接收两个参数：

`Database.BatchableContext bc`： 一个上下文对象，可以用来获取作业的 ID 等信息。

`List<sObject> scope`： 当前批次需要处理的记录列表。这个 `scope` 的大小可以在启动 Batch 作业时指定，默认为 200，最大为 2000。

至关重要的一点是： 每次调用 `execute` 方法都会启动一个全新的、独立的事务，拥有自己独立的 Governor Limits。这意味着，如果你的 Batch 作业有 100 万条记录，批次大小为 200，那么 `execute` 方法将被调用 5000 次，相当于执行了 5000 个独立的事务。这正是 Batch Apex 能够处理海量数据的根本原因。

3. `finish` 方法

global void finish(Database.BatchableContext bc)

当所有的批次都通过 `execute` 方法处理完毕后，`finish` 方法会被调用一次。这个方法通常用于执行一些收尾工作，例如：

发送一封电子邮件通知，告知作业已完成，并附上成功和失败的记录摘要。

调用另一个 Batch 作业，实现作业链 (Job Chaining)。

执行一些最终的数据清理或汇总操作。

此外，如果需要在 `execute` 方法的多次调用之间保持状态（例如，统计所有批次中成功处理的总记录数），你的 Batch 类还需要实现 `Database.Stateful` 接口。这是一个标记接口，它告诉 Salesforce 保留类成员变量的状态。

示例代码

下面是一个来自 Salesforce 官方文档的经典示例。这个 Batch Apex 类的功能是查询所有客户 (Account) 记录，并更新它们的描述字段。

Batch Apex 类定义

这个类 `UpdateAccountDescriptions` 实现了 `Database.Batchable` 接口，并定义了 `start`、`execute` 和 `finish` 三个方法。

global class UpdateAccountDescriptions implements Database.Batchable<sObject> { // start 方法：定义了作业的范围 // 返回一个 Database.QueryLocator，包含了所有需要处理的 Account 记录 global Database.QueryLocator start(Database.BatchableContext bc) { // SOQL 查询语句，用于获取所有需要更新的客户记录 // 为了演示，这里我们选择了所有的客户记录 return Database.getQueryLocator('SELECT Id, Name, Description FROM Account'); } // execute 方法：处理每个批次的具体逻辑 // 参数 scope 是一个 sObject 列表，包含了当前批次要处理的记录 global void execute(Database.BatchableContext bc, List<Account> scope) { // 创建一个新的列表来存放需要更新的客户记录 List<Account> accountsToUpdate = new List<Account>(); // 遍历当前批次中的所有客户记录 for (Account acc : scope) { // 在描述字段后面追加一段文本 acc.Description = 'Updated by Batch Apex on ' + System.now(); // 将修改后的客户记录添加到待更新列表中 accountsToUpdate.add(acc); } // 使用 DML 操作一次性更新当前批次的所有记录 // 将 DML 放在 for 循环之外是最佳实践，可以避免超出 DML 限制 update accountsToUpdate; } // finish 方法：所有批次处理完成后执行 // 参数 bc 包含了作业的上下文信息，如作业 ID global void finish(Database.BatchableContext bc) { // 可以在这里发送邮件通知作业完成 // 例如，获取作业的状态信息 AsyncApexJob job = [SELECT Id, Status, NumberOfErrors, JobItemsProcessed, TotalJobItems, CreatedBy.Email FROM AsyncApexJob WHERE Id = :bc.getJobId()]; // 准备邮件内容并发送... // 这是作业完成后的常见操作，用于通知管理员或相关人员 System.debug('Batch job finished. Status: ' + job.Status); } }

执行 Batch Apex

要启动这个 Batch 作业，你可以在 Developer Console 的匿名执行窗口 (Anonymous Window) 中运行以下代码。

// 实例化 Batch 类 UpdateAccountDescriptions myBatch = new UpdateAccountDescriptions(); // 调用 Database.executeBatch 来启动作业 // 第二个参数是可选的批次大小 (scope size)，这里设置为 50 // 如果不指定，默认是 200 Id batchJobId = Database.executeBatch(myBatch, 50); // batchJobId 变量包含了这个异步作业的 ID，可以用于后续监控 System.debug('Started Batch Job with ID: ' + batchJobId);

执行后，你可以在 "设置" -> "作业" -> "Apex 作业" 页面监控该作业的进度和状态。

注意事项

虽然 Batch Apex 非常强大，但在使用时必须注意以下几点，以确保其高效、稳定地运行。

Governor Limits： 切记，每个 `execute` 方法的执行都有自己独立的 Governor Limits。如果你的批次大小是 200，那么在这个批次的 `execute` 方法中，你最多只能查询 50,000 条记录，执行 10,000 条记录的 DML 操作。因此，务必确保单次 `execute` 的逻辑不会过于复杂以至于触及限制。

批次大小 (Batch Size)： 在 `Database.executeBatch` 中设置的批次大小会影响性能。较大的批次（如 1000 或 2000）会减少 `execute` 方法的调用次数，从而减少总的事务开销，但会消耗更多的堆内存。如果 `execute` 方法的逻辑非常复杂，消耗大量 CPU 时间，较小的批次（如 50 或 100）可能更合适，以避免超时。你需要根据具体的业务场景进行测试和权衡。

状态管理 (`Database.Stateful`)： 如果你的类实现了 `Database.Stateful`，那么类的成员变量会在每次 `execute` 调用之间被保留。这对于计数或聚合非常有用。但要注意，状态对象会被序列化，如果状态对象过大，会严重影响性能。请仅在绝对必要时使用 `Database.Stateful`，并保持状态变量的轻量。

API 调用 (Callouts)： 如果需要在 Batch Apex 中调用外部系统的 API，类必须实现 `Database.AllowsCallouts` 接口。每个 `execute` 方法的事务中可以执行外部调用，但同样受限于 Governor Limits（例如，每个事务最多 100 个 callout）。

错误处理： 在 `execute` 方法中，单个记录的处理失败不应该导致整个批次甚至整个作业的失败。强烈建议在 `execute` 方法内部使用 `try-catch` 块来捕获和处理异常。对于 DML 操作，可以使用 `Database.update(records, false)` 这样的方法，它允许部分成功，然后你可以遍历 `Database.SaveResult` 来记录失败的记录及其原因。`finish` 方法是汇总和报告这些错误的理想位置。

测试覆盖率： 测试 Batch Apex 需要特定的方法。你必须将 `Database.executeBatch` 的调用放在 `Test.startTest()` 和 `Test.stopTest()` 之间。`Test.stopTest()` 会强制异步的 Batch 作业在测试上下文中同步执行，这样你就可以在之后通过 SOQL 查询来断言 (assert) 数据是否被正确修改。

总结与最佳实践

Batch Apex 是 Salesforce 开发人员工具箱中不可或缺的利器，它为处理大规模数据集提供了一个结构化且可扩展的框架。通过将任务分解为独立的、可管理的批次，我们可以安全地在 Governor Limits 的约束下完成看似不可能完成的数据处理任务。

作为最佳实践，请牢记：

优先使用 `Database.QueryLocator`： 除非逻辑极其复杂，否则始终选择 `QueryLocator` 作为 `start` 方法的返回值，以最大限度地减少堆内存使用。

保持 `execute` 方法的逻辑专注： 每个 `execute` 方法应该只做一件事，并把它做好。避免在一个方法中执行过于复杂的、相互依赖的操作。

精细化错误处理： 不要让一颗“老鼠屎”坏了一锅粥。实现精细的记录级错误处理，确保作业的健壮性。
- 优化批次大小： 没有万能的批次大小。通过在沙箱中进行性能测试，为你的特定用例找到最佳的批次大小。
编写全面的测试： 确保你的测试类不仅能覆盖代码，还能验证 Batch 作业在不同场景下（包括成功和失败场景）的业务逻辑是否正确。

考虑作业链 (Job Chaining)： 对于多步骤的复杂流程，可以从一个 Batch 的 `finish` 方法中启动下一个 Batch，形成一个清晰、可维护的处理管道。

掌握了 Batch Apex，你就拥有了驾驭 Salesforce 平台上海量数据的能力，能够构建出更强大、更具扩展性的应用程序。

apex asynchronous apex batch apex governor limits salesforce

评论

发表评论

Salesforce中文网