精通 Salesforce 数据归档：架构师的战略指南

背景与应用场景

作为一名 Salesforce 架构师 (Salesforce Architect)，我日常工作的核心之一是确保 Salesforce 平台的长期健康、可扩展性和高性能。随着业务的增长，数据量呈指数级增长，这带来了巨大的挑战。一个未经管理的、臃肿的 Salesforce 组织会面临诸多问题：报表和列表视图加载缓慢、SOQL 查询超时、存储成本飙升，甚至触及 Salesforce 的治理限制 (Governor Limits)。

数据归档 (Archiving) 不再是一个可有可无的“清理”任务，而是一项关键的架构战略。其核心目标是将不再频繁访问的历史数据从主要业务对象（如 Case、Task、Opportunity）中移出，迁移到一个成本更低、对性能影响更小的存储位置，同时确保在需要时仍然可以访问这些数据以满足合规性、审计或分析需求。有效的归档策略是维持 Salesforce 平台敏捷性和响应能力的关键，也是每个架构师在设计解决方案时必须深思熟虑的环节。

典型的应用场景包括：

合规性要求： 金融、医疗等行业要求将客户交互记录保存 7 年或更长时间。这些数据大部分时间处于“冷”状态，不应占用昂贵的主存储。
性能优化： 对于拥有数千万甚至上亿条记录的对象，任何查询、索引或数据操作都会变得异常缓慢。归档旧记录可以显著缩小主要数据表的大小，从而提升系统整体性能。
存储成本控制： Salesforce 的数据存储是有限且昂贵的。将海量历史数据归档到成本更低的存储方案中，可以有效控制 TCO (Total Cost of Ownership，总拥有成本)。
系统可维护性： 一个整洁、精简的数据模型更易于维护、迭代和进行数据迁移。

原理说明

从架构师的视角来看，Salesforce 数据归档策略可以分为三大类，每种策略都有其独特的适用场景、优缺点和技术实现路径。选择哪种策略取决于数据量、访问频率、预算、安全合规要求以及团队的技术能力。

策略一：Salesforce 平台原生归档 (On-Platform Archiving)

这种策略是将数据保留在 Salesforce 平台内，但将其从活跃的业务对象转移到专门用于归档的存储中。

1. Big Objects (大对象)

Big Objects 是 Salesforce 提供的一种用于存储海量数据（亿级甚至十亿级）的特殊对象。它们基于 HBase 构建，专为大数据场景设计。我们可以将旧的 Case 或日志记录迁移到自定义的 Big Object 中。

优点： 极高的数据容量、成本相对较低、能够通过异步 SOQL (Async SOQL) 进行大规模数据分析。
缺点： 功能受限，不支持标准的用户界面、触发器、流程或大多数标准 SOQL 功能。主要通过 API 或异步 SOQL 访问。
架构决策点： 当归档数据的核心需求是用于后台分析、审计追踪，且几乎不需要实时用户交互时，Big Objects 是一个绝佳的选择。

2. 归档自定义对象 (Archival Custom Objects)

这是一种简单直接的方法：创建一个与原对象结构类似的自定义对象（例如，`Archived_Case__c`），然后通过 ETL (Extract, Transform, Load) 过程将超过特定年限（如 2 年）的数据从 `Case` 对象移动到 `Archived_Case__c` 对象。

优点： 实施相对简单，归档数据仍然可以通过标准报表、列表视图和页面布局进行访问，用户体验较好。
缺点： 仍然消耗 Salesforce 数据存储空间，虽然解决了主对象的性能问题，但并未从根本上解决存储成本问题。对于超大规模数据，这个归档对象本身也可能成为性能瓶颈。
架构决策点： 适用于数据量中等、需要频繁或便捷地由业务用户访问归档数据的场景。

策略二：平台外归档 (Off-Platform Archiving)

这是最常见也是最强大的企业级归档策略，即将数据从 Salesforce 移出，存储在外部数据仓库 (Data Warehouse) 或数据湖 (Data Lake) 中。

1. 流程概述

典型的流程是：使用 Bulk API 2.0 (批量 API) 或专业的 ETL 工具（如 MuleSoft, Informatica）定期查询 Salesforce 中的旧数据，将其导出，然后加载到外部存储系统（如 Amazon S3, Google BigQuery, Snowflake, Heroku Postgres）中。最后，在验证数据成功迁移后，从 Salesforce 中删除这些记录。

2. 数据访问

数据移出后，如何访问是架构设计的关键。常见模式有：

Salesforce Connect (Salesforce 连接): 使用 External Objects (外部对象) 将外部数据源虚拟化为 Salesforce 中的一个对象。用户可以在 Salesforce UI 中像查看普通对象一样查看归档数据，但数据本身仍在外部。这提供了最无缝的用户体验。
自定义 LWC/Aura 组件： 开发一个 Lightning Web Component，通过调用外部系统的 API 来按需查询和展示归档数据。这种方式提供了极大的灵活性，可以自定义复杂的 UI 和交互逻辑。
跳转链接： 在 Salesforce 页面上放置一个链接，将用户导航到外部 BI 系统或数据查看平台来浏览归档数据。

架构决策点： 对于拥有大规模数据、严格的成本控制要求以及成熟的 IT 生态系统的企业，平台外归档是首选。架构师需要重点设计集成模式、数据同步机制、安全模型以及最终用户的数据检索体验。

策略三：AppExchange 解决方案

Salesforce 生态系统中有许多成熟的第三方 AppExchange 应用，专门提供数据归档和备份服务。这些应用通常打包了上述策略的实现，提供了开箱即用的自动化策略配置、数据迁移、无缝查看等功能。

优点： 快速实施、降低开发和维护成本、通常提供成熟且用户友好的归档数据查看界面。
缺点： 产生额外的许可费用，可能在定制化和灵活性方面受到限制。
架构决策点： 当企业希望快速解决问题且内部开发资源有限时，评估并选择一个可靠的 AppExchange 解决方案是一条捷径。架构师的职责是评估其技术架构是否符合公司的安全、集成和扩展性标准。

示例代码

平台外归档策略的核心技术之一是使用 Bulk API 2.0 高效地提取大量数据。下面展示了通过 REST API 与 Bulk API 2.0 交互以创建一个查询作业 (Query Job) 的流程。这并非可以直接运行的 Apex 代码，而是代表了 ETL 工具或中间件与 Salesforce 交互的 API 调用序列。

第 1 步：创建查询作业

首先，发送一个 POST 请求到 /services/data/vXX.X/jobs/query 端点来创建一个新的查询作业。请求体中包含要执行的 SOQL 查询。

// HTTP Request
POST /services/data/v58.0/jobs/query
Host: yourInstance.salesforce.com
Authorization: Bearer 00D...
Content-Type: application/json
Accept: application/json

// Request Body
{
  "operation" : "query",
  "query" : "SELECT Id, Name, CreatedDate FROM Case WHERE CreatedDate < LAST_N_YEARS:5"
}

// 这是一个标准的REST POST请求。
// "operation": "query" 指定了作业类型是查询。
// "query": 包含了我们用来筛选需要归档的旧记录的SOQL语句。
// 这里我们查询所有5年前创建的Case记录。

第 2 步：检查作业状态

创建作业后，Salesforce 会返回一个作业 ID。你需要定期轮询该作业的状态，直到其完成。发送一个 GET 请求到 /services/data/vXX.X/jobs/query/{jobId}。

// HTTP Request
GET /services/data/v58.0/jobs/query/750R0000000z012IAA
Host: yourInstance.salesforce.com
Authorization: Bearer 00D...
Accept: application/json

// 750R0000000z012IAA 是上一步返回的 job ID。
// 你需要检查返回的JSON响应中的 "state" 字段。
// 当 state 变为 "JobComplete" 时，表示查询已完成，可以获取结果了。
// 其他可能的状态包括 "UploadComplete"（对于摄入作业）、"InProgress"、"Aborted" 或 "Failed"。

第 3 步：获取查询结果

作业完成后，发送一个 GET 请求到 /services/data/vXX.X/jobs/query/{jobId}/results 来获取查询结果。Salesforce 会以 CSV 格式返回数据。

// HTTP Request
GET /services/data/v58.0/jobs/query/750R0000000z012IAA/results
Host: yourInstance.salesforce.com
Authorization: Bearer 00D...
Accept: text/csv

// "Accept" 请求头指定了我们期望接收CSV格式的数据。
// 返回的响应体就是包含所有查询结果的CSV文件内容。
// 你的ETL工具需要解析这个CSV文件，然后将其加载到外部归档存储中。
// Salesforce 官方文档提供了关于如何处理分页结果的详细信息（使用 Sforce-Locator 头）。

⚠️ 以上 API 调用示例严格遵循 Salesforce Bulk API 2.0 开发者指南中的规范。

注意事项

作为架构师，在设计和实施归档策略时，必须全面考虑以下关键点：

数据完整性与关系维护： 归档数据时，如何处理其关联的子对象是一个复杂问题。例如，归档一个客户 (Account) 时，是否要同时归档其所有关联的联系人 (Contacts) 和业务机会 (Opportunities)？在将数据移出平台前，必须使用 External ID (外部ID) 在父子记录间建立持久的关联关系，以便在外部系统中重建这种关系，或在需要时恢复数据。
数据检索策略与 SLA： 必须与业务部门明确归档数据的访问需求，即服务水平协议 (SLA - Service Level Agreement)。数据需要多久被访问一次？访问时的性能要求是怎样的？是需要秒级响应还是可以接受分钟级甚至小时级的延迟？这直接决定了是选择近线存储 (Nearline) 还是离线冷存储 (Cold Storage)，并影响最终的架构选型和成本。
安全与合规： 数据离开 Salesforce 平台后，其安全责任就转移到了企业自身。必须确保外部存储系统满足同等甚至更高的安全标准，包括静态加密 (Encryption at Rest)、传输加密 (Encryption in Transit) 和严格的访问控制。同时，归档方案必须符合 GDPR、CCPA 等数据隐私法规，特别是“被遗忘权”的实现。
API 限制与治理： 归档过程，特别是大规模数据提取，会消耗大量的 API 调用。必须在 Salesforce 的每日 API 调用限制内进行规划。使用 Bulk API 2.0 是最佳实践，因为它被设计用于高效处理大量数据，并且对 API 限制的消耗更经济。
用户体验 (UX)： 最终用户如何与归档数据交互？一个设计拙劣的检索过程会让归档方案形同虚设。无论是通过 Salesforce Connect 实现的无缝集成，还是一个功能强大的 LWC，都必须确保用户能够简单、直观地找到他们需要的信息。

总结与最佳实践

数据归档不是一次性的项目，而是一项持续的数据生命周期管理 (Data Lifecycle Management) 规程。作为 Salesforce 架构师，我们的目标是建立一个自动化、可预测且与业务需求紧密结合的归档框架。

最佳实践清单：

制定数据分类策略： 与业务方合作，将数据分为“活跃 (Hot)”、“不活跃 (Warm)”和“归档 (Cold)”三类，并为每一类定义明确的保留策略和归档触发条件。

优先选择 Bulk API 2.0：

自动化而非手动：

“验证后删除”原则：

设计可恢复性：

最终，一个成功的归档策略能够将 Salesforce 从一个可能变得臃肿迟缓的数据仓库，转变为一个永远保持敏捷、高效的核心业务平台，支撑企业在未来持续、健康地发展。

Salesforce Einstein AI 编程实践：开发者视角下的智能预测

九月 15, 2025

阅读全文

Salesforce中文网