Salesforce Bulk API 2.0：海量数据处理深度解析

八月 22, 2025

背景与应用场景

在 Salesforce 的生态系统中，数据是驱动业务流程和客户关系的核心。无论是企业初次实施 Salesforce 时需要迁移历史数据，还是日常运营中需要与外部系统（如 ERP、数据仓库）进行大规模数据同步，高效、稳定地处理海量数据始终是一项关键挑战。Salesforce 提供了多种数据操作的 API，例如 SOAP API 和 REST API，它们非常适合处理单条或少量记录的实时交互。然而，当数据量达到数万、数百万甚至更多时，使用这些 API 会因其同步、事务性的特点而变得效率低下，并极易触发 Salesforce 平台的 Governor Limits (管控限制)。

为了解决这一难题，Salesforce 推出了专门用于异步处理大批量数据的 Bulk API。Bulk API 2.0 是其最新版本，它基于 RESTful 架构，并对工作流程进行了大幅简化和优化。与前代版本（Bulk API 1.0）相比，Bulk API 2.0 隐藏了手动创建批次 (Batch) 的复杂性，由 Salesforce 平台自动处理数据的分块、并行处理和重试，让开发者可以更专注于业务逻辑而非底层的数据分片细节。

典型的应用场景包括：

初始数据迁移： 当企业首次上线 Salesforce 时，需要将来自旧系统（如传统 CRM、Excel 表格）的客户、联系人、商机等海量数据一次性导入。
定期数据同步： 企业内部的 ERP、财务系统或数据仓库每天会产生大量数据，需要定期（如每晚）同步到 Salesforce，或从 Salesforce 中导出数据进行备份和分析。
数据清理与归档： 对 Salesforce 中过时或无效的大量数据进行批量删除或归档操作。
大规模数据更新： 因业务规则变更，需要更新成千上万条记录的某个字段值。

总而言之，任何涉及超过 2000 条记录的创建、更新、删除或查询操作，都应优先考虑使用 Bulk API 2.0，以获得最佳的性能和平台资源利用率。

原理说明

Bulk API 2.0 的核心设计理念是简单与高效。它的整个工作流程被简化为一个统一的、基于 Job (作业) 的模型。开发者不再需要像 Bulk API 1.0 那样手动将数据分割成多个 Batch (批次)，平台会自动完成这项工作。

其基本工作流程如下：

创建作业 (Create a Job)： 客户端向 Salesforce 发送一个 HTTP POST 请求，创建一个 Ingest (摄入) 类型的作业。请求体中定义了要操作的对象 (如 Account)、操作类型 (如 insert, update, upsert, delete)、数据格式 (仅支持 CSV) 等元数据。Salesforce 收到请求后，会返回一个作业 ID 和一个用于上传数据的唯一 URL (contentUrl)。
上传数据 (Upload Job Data)： 客户端将准备好的 CSV 格式数据，通过一个 HTTP PUT 请求上传到上一步返回的 contentUrl。Salesforce 接收到数据后，会将其暂存，等待作业关闭。
关闭作业 (Close the Job)： 数据上传完毕后，客户端发送一个 HTTP PATCH 请求，将作业的状态更新为 UploadComplete。这个动作会通知 Salesforce：“数据已准备好，可以开始处理了。”
异步处理 (Asynchronous Processing)： Salesforce 在后台接收到关闭信号后，会将作业放入处理队列。平台会自动将上传的 CSV 数据分割成多个内部批次，并利用其强大的并行处理能力，在多个服务器上同时处理这些数据。这个过程是完全异步的，客户端无需等待其完成。
监控状态与获取结果 (Monitor Status & Get Results)： 客户端可以通过作业 ID 定期轮询作业的状态。当作业状态变为 JobComplete (完成) 或 Failed (失败) 时，就可以通过指定的端点下载处理成功记录的列表、处理失败记录的列表（包含错误原因）以及未处理记录的列表。

这种简化的流程极大地降低了开发者的集成成本。Salesforce 平台接管了最复杂的部分——数据分块和并行调度，确保了在不违反 Governor Limits 的前提下，最大限度地提高数据处理吞吐量。

示例代码

以下示例将演示如何使用 Bulk API 2.0 创建一个用于插入客户 (Account) 记录的作业。所有示例均需提供正确的认证头 (Authorization: Bearer [Session_ID])。

1. 创建作业 (Create a Job)

我们首先发送一个 POST 请求到 /services/data/vXX.X/jobs/ingest 端点来创建一个新作业。请求体中指定我们要对 Account 对象执行 insert 操作。

POST /services/data/v58.0/jobs/ingest
Host: yourInstance.salesforce.com
Authorization: Bearer 00D....
Content-Type: application/json; charset=UTF-8
Accept: application/json

{
  "object" : "Account",
  "contentType" : "CSV",
  "operation" : "insert",
  "lineEnding" : "LF"
}

注释：

object: 指定要操作的 Salesforce SObject，此处为 "Account"。
contentType: 指定上传数据的格式，Bulk API 2.0 目前只支持 "CSV"。
operation: 指定数据操作类型，可以是 insert, update, upsert, delete, hardDelete 或 query。
lineEnding: 指定 CSV 文件中的换行符格式，LF (Line Feed) 是推荐的格式，也可以是 CRLF。

成功的响应 (Successful Response):

{
  "id": "750R0000000zLLhIAM",
  "operation": "insert",
  "object": "Account",
  "createdById": "005R0000000hOM9IAM",
  "createdDate": "2023-11-20T10:00:00.000+0000",
  "systemModstamp": "2023-11-20T10:00:00.000+0000",
  "state": "Open",
  "concurrencyMode": "Parallel",
  "contentType": "CSV",
  "apiVersion": 58.0,
  "contentUrl": "jobs/ingest/750R0000000zLLhIAM/batches",
  "lineEnding": "LF",
  "columnDelimiter": "COMMA"
}

请记下返回的 id (作业 ID) 和 contentUrl，它们将在后续步骤中使用。

2. 上传数据 (Upload Job Data)

接下来，我们将 CSV 数据通过 PUT 请求上传到上一步返回的 contentUrl。注意，URL 是相对路径，需要拼接在实例 URL 后面。

PUT /services/data/v58.0/jobs/ingest/750R0000000zLLhIAM/batches
Host: yourInstance.salesforce.com
Authorization: Bearer 00D....
Content-Type: text/csv
Accept: application/json

Name,Description,Phone
"Test Account 1","Created via Bulk API 2.0","1234567890"
"Test Account 2","Another account for testing","0987654321"

注释：

请求的 URL 是从上一步响应中获取的 contentUrl。
Content-Type 必须是 text/csv。
请求体就是纯粹的 CSV 数据。第一行是字段 API 名称的表头，后续行是数据记录。

成功的响应 (Successful Response):

如果数据上传成功，Salesforce 会返回一个 201 Created 状态码，响应体为空。

3. 关闭作业 (Close the Job)

数据上传完成后，我们需要通知 Salesforce 开始处理。这通过发送一个 PATCH 请求来更新作业状态为 UploadComplete 实现。

PATCH /services/data/v58.0/jobs/ingest/750R0000000zLLhIAM
Host: yourInstance.salesforce.com
Authorization: Bearer 00D....
Content-Type: application/json; charset=UTF-8
Accept: application/json

{
  "state" : "UploadComplete"
}

成功的响应 (Successful Response):

Salesforce 会返回更新后的作业信息，此时 state 字段的值应为 UploadComplete。

{
  "id": "750R0000000zLLhIAM",
  "operation": "insert",
  "object": "Account",
  ...
  "state": "UploadComplete",
  ...
}

4. 监控作业状态与获取结果

作业关闭后，Salesforce 会在后台异步处理。我们可以通过 GET 请求定期查询作业的最新状态。

GET /services/data/v58.0/jobs/ingest/750R0000000zLLhIAM
Host: yourInstance.salesforce.com
Authorization: Bearer 00D....
Accept: application/json

当响应中的 state 变为 JobComplete 时，表示作业已处理完成。此时，我们可以通过以下端点获取详细结果：

获取成功记录： GET /services/data/v58.0/jobs/ingest/750R0000000zLLhIAM/successfulResults/
获取失败记录： GET /services/data/v58.0/jobs/ingest/750R0000000zLLhIAM/failedResults/

例如，获取失败记录的请求将返回一个 CSV，其中包含了原始数据行以及额外的 sf__Error 列，详细说明了失败的原因。

注意事项

权限 (Permissions)

执行 Bulk API 2.0 操作的用户必须在其 Profile (简档) 或 Permission Set (权限集) 中拥有以下权限：

API Enabled: 允许用户通过任何 API 访问 Salesforce。
Manage Data Integrations: 允许用户查看和管理 Bulk Data Load Jobs。
对操作对象 (如 Account) 的相应 CRUD (Create, Read, Update, Delete) 权限。

API 限制 (API Limits)

Bulk API 2.0 虽然强大，但仍受制于平台的资源限制，以确保所有租户的公平使用。关键限制包括：

作业数量： 每个 Org 在 24 小时内最多可以创建 100,000 个作业（包括 ingest 和 query 作业）。
文件大小： 上传的原始数据文件（CSV）大小不能超过 150 MB。
记录数量： 一个作业中处理的记录总数没有硬性上限，但受处理时间限制。
处理时间： Salesforce 处理作业内每个内部批次的时间上限为 10 分钟。如果数据过于复杂（例如包含大量触发器或流程），单个批次可能超时。
字段数量： 一个对象最多可包含 5,000 个字段。
字符数： CSV 文件中的一条记录（一行）不能超过 131,072 个字符。

开发者需要密切关注这些限制，并从架构层面设计健壮的集成方案，例如将超大文件拆分为多个作业。

错误处理 (Error Handling)

健壮的错误处理是成功集成不可或缺的一环。Bulk API 2.0 提供了清晰的错误反馈机制。

作业级别失败： 如果整个作业失败（例如，CSV 格式错误或无效的对象/字段名），作业状态会变为 Failed。此时需要检查作业信息获取失败原因。
记录级别失败： 这是最常见的情况，即作业本身完成，但部分记录因数据问题（如违反验证规则、必填字段为空、触发器 Apex 异常等）而处理失败。
获取失败详情： 必须通过访问 /failedResults/ 端点来下载包含错误信息的 CSV 文件。集成程序应解析此文件，记录失败原因，并根据业务需求实现重试逻辑或将错误报告给相关人员。

总结与最佳实践

Salesforce Bulk API 2.0 是处理大规模数据集的首选工具。其简化的 RESTful 工作流、平台自动化的并行处理机制，使其成为构建高效、可扩展的数据集成方案的基石。

为了充分利用其优势并避免潜在问题，请遵循以下最佳实践：

选择合适的 API： 当记录数超过 2,000 条时，优先使用 Bulk API 2.0。对于少量、需要即时反馈的事务，应使用标准的 REST 或 SOAP API。
合理拆分作业： 即使 Bulk API 2.0 能处理大量数据，将一个包含数千万条记录的超级作业拆分为多个较小的、逻辑独立的作业也是一个好习惯。这不仅可以降低单个作业超时的风险，还能提高监控和错误处理的粒度。
监控 API 使用情况： 在 Salesforce 的 "设置" -> "公司信息" 中，可以查看组织的 API 使用情况。定期监控，确保集成应用不会意外耗尽每日限额。
优化数据准备： 在上传前，尽可能在源头清理和验证数据，减少因数据质量问题导致的记录级别失败。确保 CSV 文件编码为 UTF-8，并且表头与字段 API 名称完全匹配。
实现完整的轮询与错误处理逻辑： 不要假设作业会立即完成或全部成功。客户端应实现一个健壮的轮询机制来检查作业状态，并在作业完成后，系统性地下载和处理成功与失败的结果。
善用 Upsert 操作： 在进行数据同步时，优先使用 upsert 操作并指定外部 ID 字段。这可以避免创建重复记录，使集成逻辑更简单、更具幂等性。

通过遵循这些原则，技术架构师和开发者可以构建出能够可靠、高效地处理 Salesforce 海量数据的强大集成解决方案，为企业的数据驱动战略提供坚实的技术支撑。

Salesforce中文网