Salesforce Bulk API 2.0：集成工程师深度指南

背景与应用场景

大家好，我是一名 Salesforce 集成工程师。在我的日常工作中，最常遇到的挑战之一就是如何在 Salesforce 与外部系统（如 ERP、数据仓库、营销自动化平台等）之间高效、可靠地移动海量数据。对于小批量、需要实时响应的交互，我们通常会选择标准的 REST API 或 SOAP API。但当数据量达到数万、数十万甚至数百万条时，这些同步 API 就会因为性能瓶颈和 API 调用限制而显得力不从心。

这正是 Salesforce Bulk API 发挥作用的地方。Salesforce 最初推出了 Bulk API 1.0，它基于 SOAP 和 REST，通过“作业 (Job)”和“批次 (Batch)”的概念来处理大数据。虽然功能强大，但开发者需要手动将数据拆分成多个批次并分别管理，增加了集成的复杂性。

为了简化这一流程，Salesforce 推出了 Bulk API 2.0。它完全基于 RESTful 架构，并采用了一个更简单、更智能的工作流。作为集成工程师，我们不再需要关心如何将数据分批，Salesforce 会在后台为我们自动处理。这极大地降低了开发和维护成本，使我们能够更专注于业务逻辑本身。

Bulk API 2.0 的核心应用场景包括：

初始数据迁移： 当企业首次上线 Salesforce 时，需要将来自旧 CRM 或其他系统的大量客户、联系人、订单等历史数据一次性导入。
定期数据同步： 例如，每天深夜将 Salesforce 的业务数据同步到企业的数据仓库 (Data Warehouse) 进行分析和报表。
数据归档： 将 Salesforce 中不再活跃的旧记录（如三年前的 Case）批量导出并迁移到低成本的存储系统中。
大规模数据清洗与更新： 对数十万条客户数据进行地址标准化、格式统一或补充营销标签等批量操作。

从集成架构的角度看，Bulk API 2.0 是我们处理大数据集时的首选工具，它为异步、高吞吐量的数据操作提供了坚实的基础。

原理说明

要精通 Bulk API 2.0，首先必须理解其异步处理的核心工作流。与发送一个请求并立即得到结果的同步 API 不同，Bulk API 2.0 的交互过程更像是在 Salesforce 平台上“提交一个任务”，然后定期回来“查询任务进度和结果”。

整个流程可以分解为以下几个关键步骤，这也是我们设计集成方案时的主要框架：

创建作业 (Create a Job):
这是所有操作的起点。我们需要向 Salesforce 发送一个 HTTP POST 请求，请求体中包含一个 JSON 对象，用于定义这个作业的属性。关键属性包括：
- object: 要操作的 Salesforce 对象，例如 'Account' 或 'My_Custom_Object__c'。
- operation: 要执行的操作，包括 insert (插入)、update (更新)、upsert (插入或更新)、delete (删除)、hardDelete (硬删除)、query (查询) 和 queryAll (查询所有，包括归档和已删除记录)。
- externalIdFieldName: 仅在 upsert 操作时需要，指定作为外部 ID 的字段 API 名称。
- contentType: Bulk API 2.0 目前只支持 CSV 格式。
- lineEnding: 指定行尾符，通常是 LF (Line Feed) 或 CRLF (Carriage Return Line Feed)。
请求成功后，Salesforce 会返回一个包含作业 ID 和一个用于上传数据的唯一 URL (contentUrl) 的响应。
上传作业数据 (Upload Job Data):
对于 insert, update, upsert, delete 等数据加载类作业，我们需要将准备好的 CSV 文件内容通过 HTTP PUT 请求发送到上一步返回的 contentUrl。CSV 文件的第一行必须是字段的 API 名称作为标题行。
关闭作业 (Close the Job):
数据上传完成后，必须向 Salesforce 发送一个信号，告知它可以开始处理数据了。这通过向作业的端点发送一个 HTTP PATCH 请求，并将作业状态 (state) 设置为 UploadComplete 来实现。一旦作业被关闭，就不能再上传任何数据了。
监控作业状态 (Monitor Job Status):
由于处理是异步的，我们需要通过轮询 (Polling) 的方式来检查作业的状态。通过向作业的端点发送 HTTP GET 请求，我们可以获取作业的最新状态，例如 Open (已创建)、UploadComplete (数据上传完成，排队等待处理)、InProgress (处理中)、JobComplete (处理完成)、Failed (失败) 或 Aborted (已中止)。在设计集成时，合理的轮询策略（例如指数退避算法）至关重要，以避免不必要的 API 调用。
获取结果 (Retrieve Results):
当作业状态变为 JobComplete 或 Failed 后，我们就可以获取处理结果了。Salesforce 提供了不同的端点来获取成功记录、失败记录以及未处理的记录。对于集成工程师来说，最重要的通常是失败记录及其失败原因，这对于错误处理和数据重试机制至关重要。

相比于 Bulk API 1.0，Bulk API 2.0 的最大简化在于 Salesforce 会自动将我们上传的 CSV 数据进行分块（Chunking）和并行处理，我们无需再关心“批次 (Batch)”的管理，这使得整个集成逻辑更加清晰、简单。

示例代码

以下所有示例均严格遵循 Salesforce 官方文档，展示了一个完整的创建、上传、关闭和监控联系人 (Contact) 插入作业的流程。

第 1 步：创建插入作业

我们首先发送一个 POST 请求来创建一个新的作业，用于向 Contact 对象插入数据。

// HTTP Request
POST /services/data/vXX.X/jobs/ingest
Authorization: Bearer 00D...
Content-Type: application/json; charset=UTF-8
Accept: application/json

// Request Body (JSON)
{
  "object" : "Contact",
  "contentType" : "CSV",
  "operation" : "insert",
  "lineEnding" : "LF"
}

Salesforce 的成功响应会类似如下，其中 id 是作业 ID，contentUrl 是我们下一步上传 CSV 数据的目标地址。

// HTTP Response (JSON)
{
  "id": "750R0000000zLLhIAM",
  "operation": "insert",
  "object": "Contact",
  "createdById": "005R0000000h0d8IAA",
  "createdDate": "2022-09-06T15:21:46.000+0000",
  "systemModstamp": "2022-09-06T15:21:46.000+0000",
  "state": "Open",
  "concurrencyMode": "Parallel",
  "contentType": "CSV",
  "apiVersion": 56.0,
  "jobType": "V2Ingest",
  "lineEnding": "LF",
  "columnDelimiter": "COMMA",
  "contentUrl": "services/v2/jobs/ingest/750R0000000zLLhIAM/batches",
  "apiActiveProcessingTime": 0,
  "apexProcessingTime": 0
}

第 2 步：上传 CSV 数据

接下来，我们将 CSV 数据作为请求体，通过 PUT 方法上传到上一步返回的 contentUrl。

// HTTP Request
PUT /services/data/vXX.X/jobs/ingest/750R0000000zLLhIAM/batches
Authorization: Bearer 00D...
Content-Type: text/csv
Accept: application/json

// Request Body (CSV Content)
FirstName,LastName,Email
John,Smith,jsmith@example.com
David,Jones,djones@example.com

上传成功后，Salesforce 会返回一个 HTTP 201 Created 状态码。

第 3 步：关闭作业以开始处理

数据上传完毕后，我们必须发送一个 PATCH 请求来更新作业状态，通知 Salesforce 开始处理。

// HTTP Request
PATCH /services/data/vXX.X/jobs/ingest/750R0000000zLLhIAM
Authorization: Bearer 00D...
Content-Type: application/json; charset=UTF-8
Accept: application/json

// Request Body (JSON)
{
   "state" : "UploadComplete"
}

第 4 步：监控作业信息

在作业处理期间，我们可以通过 GET 请求轮询作业状态。

// HTTP Request
GET /services/data/vXX.X/jobs/ingest/750R0000000zLLhIAM/
Authorization: Bearer 00D...

响应中的 state 字段会从 UploadComplete 变为 InProgress，最终变为 JobComplete 或 Failed。

// HTTP Response (JSON)
{
  "id": "750R0000000zLLhIAM",
  "state": "JobComplete",
  "numberRecordsProcessed": 2,
  "numberRecordsFailed": 0,
  "totalProcessingTime": 113,
  ...
}

第 5 步：获取失败记录的结果

如果 numberRecordsFailed 大于 0，我们需要获取失败记录的详细信息以便进行调试和重试。

// HTTP Request
GET /services/data/vXX.X/jobs/ingest/750R0000000zLLhIAM/failedResults/
Authorization: Bearer 00D...

响应会以 CSV 格式返回，其中包含了失败的记录以及一个额外的 sf__Error 列，用于说明失败的具体原因。

// HTTP Response (CSV Content)
sf__Id,sf__Error,FirstName,LastName,Email
,FIELD_CUSTOM_VALIDATION_EXCEPTION:Email cannot be a personal address.,Jane,Doe,jane.doe@gmail.com

注意事项

作为集成工程师，在实际项目中应用 Bulk API 2.0 时，必须密切关注以下几点：

权限 (Permissions): 执行 API 调用的用户必须在 Profile 或 Permission Set 中启用 ApiEnabled 权限。此外，该用户还需要对目标对象拥有适当的 CRUD (Create, Read, Update, Delete) 权限，以及对所操作字段的字段级安全 (Field-Level Security) 访问权限。在某些情况下，例如更新或删除由他人拥有的记录，可能还需要 Modify All Data 权限。
API 限制 (API Limits): Bulk API 2.0 虽然强大，但并非没有限制。我们需要时刻监控：
- 每日记录限制: Salesforce 根据组织版本（如 Enterprise, Unlimited）在 24 小时滚动窗口内限制可以通过 Bulk API 处理的总记录数。例如，Enterprise Edition 通常是 1.5 亿条记录。这对于需要处理超大规模数据的集成至关重要。
- 作业和文件限制: 每个作业上传的数据不能超过 100 MB。并且在 24 小时内，一个组织最多可以提交 100,000 个作业。
- 查询结果大小: 对于 query 或 queryAll 作业，结果集会被自动分割成多个文件，每个文件最大 512 MB。
超出这些限制会导致 API 请求失败，因此必须在集成设计中加入限额监控和告警机制。
错误处理 (Error Handling): 集成工作的健壮性很大程度上取决于其错误处理能力。对于 Bulk API 2.0，我们必须：
- 总是检查失败记录: 每个作业完成后，务必调用 /failedResults/ 端点获取失败详情。
- 设计重试逻辑: 针对可恢复的错误（如记录被锁定 UNABLE_TO_LOCK_ROW），应实现带有延迟的重试机制。对于永久性错误（如验证规则失败 FIELD_CUSTOM_VALIDATION_EXCEPTION），应将这些记录记录到日志中，并通知相关人员进行手动处理。
- 处理超时: 由于 Salesforce 的处理时间不确定，轮询作业状态时应设置一个合理的总超时时间，以防作业长时间卡在 InProgress 状态。
数据格式与治理: Bulk API 2.0 严格要求使用 UTF-8 编码的 CSV 文件。在准备数据时，务必确保文件编码正确，日期、数字等格式符合 Salesforce 的区域设置要求，以避免数据解析错误。

总结与最佳实践

总而言之，Salesforce Bulk API 2.0 是我们集成工具箱中用于处理大规模数据集的瑞士军刀。它通过简化的、基于 REST 的异步工作流，取代了 Bulk API 1.0 复杂的批次管理，让我们能够更快速、更稳定地构建数据集成方案。

作为一名经验丰富的集成工程师，我总结出以下几条最佳实践：

选择正确的 API: 明确数据量和时效性要求。当记录数超过 10,000 条且不需要实时响应时，优先选择 Bulk API 2.0。对于少量、需要即时反馈的交互，则使用标准的 REST API。
数据预处理: “垃圾进，垃圾出”。在将数据上传到 Salesforce 之前，务必在源系统或中间件 (Middleware) 中进行数据清洗、校验和转换。这可以显著减少因数据质量问题导致的失败记录，降低后续的错误处理成本。
设计异步工作流: 整个集成流程必须是异步的。提交作业后，不应让调用方系统同步等待结果。应采用回调 (Callback)、Webhooks 或状态轮询等机制来处理作业完成后的逻辑。
智能轮询策略: 在监控作业状态时，避免固定间隔的频繁轮询。推荐使用指数退避 (Exponential Backoff) 策略，即随着时间的推移逐渐增加轮询间隔，这样既能及时获取状态更新，又能有效减少不必要的 API 调用。
利用 queryAll: 在进行数据导出或归档时，如果需要包含已删除的记录（在回收站中）和已归档的活动，请务必使用 queryAll 操作而非 query。
安全第一: 始终使用 OAuth 2.0 协议进行认证，妥善管理 Access Token 和 Refresh Token。避免在代码或配置文件中硬编码用户凭证。

掌握并遵循这些原则，你将能够构建出高效、可靠且可扩展的 Salesforce 数据集成解决方案，从容应对各种海量数据挑战。

Salesforce中文网