精通 Salesforce Batch Apex：处理海量数据的综合指南

八月 26, 2025

背景与应用场景

在 Salesforce 平台上，每一笔交易（Transaction）都受到严格的资源限制，即 Governor Limits (管控限制)。这些限制包括 SOQL 查询数量、DML 操作行数、CPU 执行时间等。当我们需要处理数万、数百万甚至更多的记录时，同步的 Apex 代码（如 Trigger 或 Visualforce Controller）会轻易地触及这些限制，导致操作失败。为了解决这一挑战，Salesforce 提供了 Asynchronous Apex (异步 Apex) 框架，而 Batch Apex (批处理 Apex) 则是其中最核心、最常用的功能之一。

Batch Apex 专为处理大量数据而设计，它将一个庞大的作业分割成多个小的、可管理的批次（Chunks）来执行。每个批次都在其自己的独立事务中运行，拥有自己的一套 Governor Limits。这使得我们能够可靠、高效地处理海量数据，而无需担心超出平台限制。

典型的应用场景包括：

数据清洗与标准化： 对组织中所有的客户（Account）或联系人（Contact）记录进行格式化更新，例如统一电话号码格式、填充缺失的区域代码等。
数据归档与删除： 定期将多年前的、不活跃的业务记录（如 Case 或 Task）迁移到外部系统或一个大的自定义对象中，然后从主对象中删除，以提升系统性能。
复杂的业务计算： 为每个客户计算年度总销售额，这可能需要查询该客户下所有的订单（Order）和订单项（OrderItem），对于拥有大量订单的客户，同步处理是不可行的。
大规模数据集成： 从外部系统同步大量数据到 Salesforce，或将 Salesforce 的数据批量推送到外部数据仓库。

简而言之，任何需要对大量记录执行 DML 操作或复杂计算的场景，都是 Batch Apex 的用武之地。

原理说明

要实现一个 Batch Apex 类，你需要实现 Salesforce 提供的 Database.Batchable<sObject> 接口。这个接口包含了三个必须实现的方法，它们共同定义了一个完整的批处理作业生命周期。

一个 Batch Apex 作业的执行流程可以分解为以下三个阶段：

1. `start()` 方法

这是作业的入口点，由 Salesforce 在作业开始时调用一次。它的主要职责是收集需要处理的所有记录，并将它们返回给框架。此方法必须返回一个 Database.QueryLocator 或一个 Iterable<sObject>。

Database.QueryLocator： 这是最常用也是最高效的方式。你可以通过一个简单的 SOQL 查询来获取需要处理的记录。使用 QueryLocator，你的 Batch Apex 作业最多可以处理 5000 万条记录。Salesforce 框架会自动处理游标，高效地检索数据块。
Iterable<sObject>： 当数据来源不是一个简单的 SOQL 查询时（例如，数据来自复杂的 Apex 逻辑计算，或者需要调用外部 API 获取），你可以使用此方式。它返回一个可迭代的集合，但需要你自己处理数据加载的逻辑，并且总记录数受限于 Apex 的堆大小（Heap Size）限制。

start 方法在一个独立的事务中执行，有其自己的 Governor Limits。

2. `execute()` 方法

这是作业的核心。在 start 方法返回所有记录后，Salesforce 框架会将这些记录分割成多个批次（默认每批 200 条记录），然后为每个批次调用一次 execute 方法。例如，如果 start 方法查询到了 1000 条记录，那么 execute 方法将被调用 5 次，每次处理 200 条记录。

最关键的一点是：每次对 execute 方法的调用都是一个独立的事务，拥有全新的一套 Governor Limits。 这正是 Batch Apex 能够处理海量数据的核心原因。你可以在这个方法内执行 SOQL 查询、DML 操作以及其他业务逻辑。

该方法接收两个参数：一个是对 Database.BatchableContext 的引用，另一个是当前批次需要处理的记录列表（List<sObject>）。

3. `finish()` 方法

当所有的批次都被 execute 方法处理完毕后，Salesforce 会最后调用一次 finish 方法。这个方法也是在一个独立的事务中执行。通常用它来执行一些收尾工作，例如：

发送一封电子邮件，通知管理员作业已完成，并附上成功或失败的摘要信息。
启动另一个 Batch Apex 作业，实现作业链（Chaining Batch Jobs）。
执行一些最终的汇总计算或更新操作。

该方法接收一个 Database.BatchableContext 参数，你可以通过它获取作业的 ID、状态等信息。

保持状态 (Stateful)

默认情况下，每个 execute 方法的调用都是无状态的，即一个批次的执行无法感知到另一个批次的状态（例如，无法统计总共处理了多少条记录）。如果你需要在批次之间共享信息，你的 Batch Apex 类需要额外实现 Database.Stateful 接口。这会告诉 Salesforce 框架在每个批次执行后保留类成员变量的状态。但需要注意，这会增加作业的处理开销，因为它涉及序列化和反序列化状态，应仅在必要时使用。

示例代码

以下是一个来自 Salesforce 官方文档的经典示例。这个 Batch Apex 类的功能是查询所有有效的客户（Account），并更新它们的描述字段。我们会在代码中加入详细的中文注释来解释每一部分。

global class UpdateAccountFields implements Database.Batchable<sObject> {

    // start 方法：定义作业的范围
    // Salesforce 在作业开始时调用此方法一次
    // 它返回一个 Database.QueryLocator，其中包含了我们需要处理的所有记录
    global Database.QueryLocator start(Database.BatchableContext bc) {
        // SOQL 查询：选择所有有效客户的 ID 和 Name 字段
        // 使用 QueryLocator 是处理大量数据的最佳实践，最多可支持5000万条记录
        return Database.getQueryLocator('SELECT Id, Name FROM Account WHERE IsActive__c = true');
    }

    // execute 方法：处理每一批数据
    // Salesforce 将 start 方法返回的记录分块，并为每一块调用一次此方法
    // scope 参数是一个 sObject 列表，包含了当前批次要处理的记录
    global void execute(Database.BatchableContext bc, List<Account> scope) {
        // 创建一个列表来存放需要更新的客户记录
        List<Account> accountsToUpdate = new List<Account>();

        // 遍历当前批次的所有客户记录
        for (Account acc : scope) {
            // 在描述字段后追加文本
            acc.Description = 'Processed by Batch Apex.';
            // 将修改后的记录添加到待更新列表中
            accountsToUpdate.add(acc);
        }

        // 在循环外执行 DML 操作，这是 Apex 的最佳实践（Bulkification）
        // 每次 execute 调用都是一个独立的事务，有自己独立的 Governor Limits
        if (!accountsToUpdate.isEmpty()) {
            update accountsToUpdate;
        }
    }

    // finish 方法：作业收尾工作
    // 当所有批次都处理完毕后，Salesforce 调用此方法一次
    global void finish(Database.BatchableContext bc) {
        // 示例：可以发送一封邮件通知作业已完成
        // 通过 BatchableContext 获取作业ID
        AsyncApexJob job = [SELECT Id, Status, NumberOfErrors, JobItemsProcessed,
            TotalJobItems, CreatedBy.Email
            FROM AsyncApexJob WHERE Id = :bc.getJobId()];

        // 准备邮件内容
        EmailManager.sendMail(
            job.CreatedBy.Email, 
            'Batch Job Completed: ' + job.Status, 
            'The batch job processed ' + job.TotalJobItems + 
            ' items with ' + job.NumberOfErrors + ' failures.'
        );
        // 注意：EmailManager 是一个虚构的类，实际开发中需要替换为你自己的邮件发送逻辑
    }
}

如何执行这个 Batch Apex？

你可以通过 Developer Console 的匿名执行窗口来启动这个作业。

// 创建 Batch Apex 类的实例
UpdateAccountFields myBatchJob = new UpdateAccountFields();

// 使用 Database.executeBatch 方法提交作业
// 第二个参数是可选的 scope size（批次大小），定义了每个 execute 方法处理的记录数
// 如果不指定，默认是 200
// 例如，指定每批处理 100 条记录
Id batchId = Database.executeBatch(myBatchJob, 100);

// batchId 是这个异步作业的 ID，你可以用它来监控作业状态
System.debug('Started Batch Job with ID: ' + batchId);

注意事项

权限与可见性

Batch Apex 在执行时遵循当前用户的权限和字段级安全（Field-Level Security）设置。如果启动作业的用户没有权限访问或修改某些字段，那么在 execute 方法中尝试更新这些字段将会失败。因此，请确保执行用户拥有足够的权限。

Governor Limits

虽然 Batch Apex 极大地放宽了限制，但并非没有限制。你需要清楚地了解它的限制模型：

start, execute, 和 finish 方法各自拥有独立的 Governor Limits。
execute 方法的限制是按每次调用计算的。例如，你每次 execute 最多可以执行 100 次 SOQL 查询。
整个 Batch Apex 作业的生命周期内，总的异步 Apex 执行次数是有限制的。

Callouts（外部服务调用）

如果你的 Batch Apex 需要调用外部 Web 服务，你的类必须实现 Database.AllowsCallouts 接口。例如：global class MyBatch implements Database.Batchable<sObject>, Database.AllowsCallouts。每个 execute 方法中可以发起多次 Callout，但同样受限于单个事务的 Callout 限制。

错误处理

健壮的错误处理至关重要。如果 execute 方法中的某条记录处理失败并抛出未捕获的异常，那么该批次（Chunk）中所有记录的 DML 操作都会被回滚。但它不会中止整个 Batch 作业，其他批次会继续执行。

最佳实践是在 execute 方法中使用 try-catch 块来捕获异常，并记录错误信息。你也可以使用 Database.update(records, false) 这样的 DML 操作，它允许部分成功，并通过返回的 Database.SaveResult 数组来检查每条记录的成功或失败状态。

测试

测试 Batch Apex 是强制性的。在测试类中，你需要将 Batch Apex 的调用放在 Test.startTest() 和 Test.stopTest() 之间。Test.stopTest() 会强制所有异步作业立即同步执行完毕，这样你就可以在后续的 `System.assert()` 中验证作业的结果。

总结与最佳实践

Batch Apex 是 Salesforce 平台上一项强大而基础的工具，是每个 Salesforce 开发者和架构师必须掌握的核心技能。它提供了一种可扩展、可靠的方式来处理大规模数据集，是解决 Governor Limits 限制的利器。

最佳实践总结：

精确定位数据： 在 start 方法的 SOQL 查询中使用尽可能精确的 WHERE 条件，只查询你需要处理的记录，避免全表扫描。
保持高效执行： execute 方法中的逻辑应尽可能高效。遵循 Apex 的 Bulkification 原则，避免在循环中执行 SOQL 或 DML。
谨慎使用 Database.Stateful： 只有在绝对需要在批次间传递状态时才使用它。滥用会因为序列化开销而降低性能。
合理设计批次大小： 通过 Database.executeBatch 的第二个参数调整批次大小（Scope Size）。如果每条记录的处理逻辑非常复杂（CPU 消耗大），可以适当减小批次大小；如果逻辑简单，可以适当增大以减少 execute 的调用次数。
实现作业链： 对于非常复杂的、多阶段的批处理任务，可以在一个 Batch 的 finish 方法中调用下一个 Batch，形成作业链。但要确保有退出机制，避免无限循环。
监控与日志： 在 finish 方法中实现通知机制，并记录作业的执行结果。对于复杂的业务，可以考虑将详细的成功/失败日志写入一个自定义对象中，方便排查问题。

通过遵循这些原则和实践，你可以构建出高效、稳定且可维护的批处理解决方案，充分发挥 Salesforce 平台的潜力。

Salesforce中文网