精通 Salesforce 数据归档策略：实现可扩展性与性能的全面指南

背景与应用场景

撰写人：Salesforce 架构师

在任何一个成熟的 Salesforce 组织中，数据量的增长都是一个必然且持续的过程。随着业务的扩展，交易记录、客户互动、日志文件等数据会呈指数级增长。如果不加以管理，这种增长会带来一系列严峻的挑战：

性能下降：海量数据会拖慢报表和仪表板的加载速度，列表视图响应迟缓，SOQL 查询超时，严重影响用户体验和业务效率。
存储成本激增：Salesforce 的数据存储空间是有限且昂贵的。超出存储配额将导致额外的成本，成为企业 IT 预算的一大负担。
治理与合规风险：许多行业（如金融、医疗）和地区（如欧盟的 GDPR）都有严格的数据保留 (Data Retention) 政策。将不再活跃但需要依法保留的数据无限期存放在生产环境中，既不经济也增加了合规风险。
敏捷性降低：臃肿的数据模型会增加 Sandbox 刷新时间和部署的复杂性，从而减缓开发和创新的步伐。

作为一名 Salesforce 架构师，我的职责不仅仅是设计满足当前业务需求的解决方案，更要为平台的长期健康、可扩展性和成本效益进行规划。数据归档 (Data Archiving) 策略正是这一规划中的核心环节。其核心目标是将生产环境中不再频繁访问的历史数据，安全、合规地迁移到成本更低、更适合长期存储的系统中，同时确保在需要时能够方便地检索这些数据。

典型的应用场景包括：

归档超过5年的已关闭个案 (Case)。
归档超过7年的已关闭丢单或赢单的业务机会 (Opportunity)。
归档历史任务 (Task) 和事件 (Event) 记录。
迁移自定义对象中生成的应用日志或交易流水。

一个精心设计的归档策略，是确保 Salesforce 平台能够作为企业核心业务系统长期、高效、稳定运行的基石。

原理说明

从架构师的视角来看，数据归档策略的选择需要综合评估多个维度：数据量、访问频率、检索要求、合规性、成本和技术栈。不存在一种“万能”的解决方案，而是需要根据具体场景进行权衡和设计。以下是几种主流的归档策略及其原理。

策略一：平台内归档 (On-Platform Archiving)

此策略将数据保留在 Salesforce 平台内，但将其从活跃的业务对象转移到专门用于存储的解决方案中。

1. 大对象 (Big Objects)

Big Objects 是 Salesforce 平台提供的专门用于存储海量数据（可达数十亿条记录）的解决方案。它们在底层基于 HBase 等大数据技术构建，提供了高可扩展性的存储能力。其核心原理是将数据存储在独立于核心数据库的系统中，通过异步方式进行处理。

优点：极高的存储容量，成本相对标准对象存储更低，数据仍在 Salesforce 平台内，便于安全和权限管理。
缺点：功能受限，不支持标准报表、触发器、流程自动化。查询必须通过特定的 SOQL 语法或 Async SOQL。没有标准的用户界面来查看记录，需要通过自定义 Lightning Web Components (LWC) 或 API 来访问。
适用场景：事件监控数据、物联网 (IoT) 传感器数据、历史日志、完整的字段审计历史 (Field Audit Trail) 等几乎不需要实时交互或更新的场景。

2. 自定义归档对象 (Custom Archive Objects)

这是一种简单直接的方法。为需要归档的标准或自定义对象（例如 `Case`）创建一个对应的归档对象（例如 `Archived_Case__c`）。这个归档对象通常只包含必要的字段，以减少数据存储占用。然后通过批处理 Apex 或 ETL 工具，定期将符合条件的旧数据从原始对象移动到归档对象。

优点：实现简单，数据模型清晰。归档数据仍然可以通过标准报表和列表视图进行访问（尽管性能可能不如原始对象）。可以利用平台的原生功能进行管理。
缺点：数据仍然占用 Salesforce 的数据存储空间，只是将压力从一个对象转移到另一个对象。对于超大规模的数据量，此方案可能不是最优选择。
适用场景：中小型数据量，需要用户偶尔通过标准界面查询历史数据的场景。

策略二：平台外归档 (Off-Platform Archiving)

此策略将数据从 Salesforce 迁移到外部数据仓库或数据库中，这是应对大规模数据归档最常用和最有效的方法。

1. Heroku (Salesforce Platform)

Heroku 是 Salesforce 旗下的平台即服务 (PaaS)，其 Heroku Postgres 数据库是理想的归档目标。通过 Heroku Connect，可以轻松实现 Salesforce 数据与 Heroku Postgres 之间的双向或单向同步。

原理：配置 Heroku Connect 将 `Case` 等对象的数据单向同步到 Heroku Postgres 的一个表中。一旦数据同步完成并验证无误，就可以在 Salesforce 中安全地删除这些旧记录。需要访问归档数据时，可以通过构建在 Heroku 上的应用程序，或者通过 Salesforce Connect (External Objects) 将归档数据显示在 Salesforce UI 中。
优点：与 Salesforce 生态系统无缝集成，安全性高。Heroku 提供了强大的计算能力，可以对归档数据进行复杂的分析和处理。
缺点：需要额外的 Heroku 订阅成本和一定的开发维护工作。

2. 公有云数据仓库 (AWS, Azure, GCP)

利用 Amazon S3/Redshift, Azure Blob Storage/Synapse, 或 Google Cloud Storage/BigQuery 等公有云服务作为数据归档的最终目的地。这是最具成本效益和扩展性的企业级方案。

原理：通过 MuleSoft、Informatica 等专业的 ETL (Extract, Transform, Load) 工具，或自定义的 API 集成，定期从 Salesforce 抽取需要归档的数据，经过转换后加载到云数据仓库中。
优点：极低的存储成本，无限的扩展能力，可以与企业级的数据湖 (Data Lake) 和商业智能 (Business Intelligence) 工具链集成。
缺点：技术实现最复杂，需要跨平台的专业知识。数据离开 Salesforce 生态系统，对安全、合规和身份验证提出了更高的要求。数据检索链路更长，通常需要通过自定义 LWC 调用外部 API 来实现。

策略三：第三方解决方案 (AppExchange)

AppExchange 上有许多成熟的备份与归档解决方案，如 OwnBackup, Odaseva, Spanning 等。这些产品通常提供开箱即用的归档策略配置、自动化任务、以及便捷的数据恢复和浏览界面。

原理：这些应用通常会连接到你的 Salesforce 组织，并将数据备份/归档到它们自己的安全云存储中。它们封装了复杂的 ETL 过程和数据检索界面。
优点：部署快速，无需开发。提供了完善的治理和合规功能。降低了内部团队的维护负担。
缺点：需要持续的许可证费用，可能缺乏针对特定业务流程的定制灵活性。

作为架构师，我们需要在“构建 (Build)”与“购买 (Buy)”之间做出明智的决策，评估总体拥有成本 (Total Cost of Ownership, TCO)。

示例代码

以下代码示例展示了如何使用 Apex 将数据插入到 Big Object 中。假设我们有一个名为 `Archived_Interaction__b` 的 Big Object，用于归档客户互动历史。

此示例严格遵循 Salesforce 官方文档中关于使用 `Database.insertImmediate()` 方法批量插入 Big Object 记录的规范。

// 准备要插入的 Big Object 记录列表
// Big Object 的 API 名称以 '__b' 结尾
List<Archived_Interaction__b> interactionsToArchive = new List<Archived_Interaction__b>();

// 假设我们从一个名为 'Interaction_Log__c' 的自定义对象中迁移数据
// 在实际场景中，这部分逻辑会由一个批处理 Apex 类来执行，查询需要归档的旧记录
List<Interaction_Log__c> oldLogs = [
    SELECT Id, Account__c, Interaction_Date__c, Type__c, Details__c
    FROM Interaction_Log__c
    WHERE Interaction_Date__c < LAST_N_YEARS:5
    LIMIT 200
];

// 遍历查询到的旧记录，并创建对应的 Big Object 记录
for(Interaction_Log__c log : oldLogs) {
    Archived_Interaction__b archive = new Archived_Interaction__b();
    // Big Object 的字段也以 '__c' 结尾
    // 索引字段 (Index Fields) 是 Big Object 的关键，用于后续查询
    archive.Account_Id__c = log.Account__c;
    archive.Interaction_Date__c = log.Interaction_Date__c;
    archive.Interaction_Type__c = log.Type__c;
    archive.Interaction_Details__c = log.Details__c;
    
    interactionsToArchive.add(archive);
}

// 使用 Database.insertImmediate() 方法插入 Big Object 记录
// 这个方法是同步的，专门用于插入 Big Objects，并且不会触发 DML 限制
// 注意：它不支持部分成功，如果任何一条记录失败，整个操作都会回滚
if (!interactionsToArchive.isEmpty()) {
    Database.SaveResult[] results = Database.insertImmediate(interactionsToArchive);

    // 遍历结果以检查是否有错误
    for (Integer i = 0; i < results.size(); i++) {
        if (results[i].isSuccess()) {
            // 成功插入，可以记录日志或准备删除原始记录
            System.debug('Successfully inserted archived interaction with ID: ' + results[i].getId());
        } else {
            // 插入失败，记录错误信息
            System.debug('Error inserting record at index ' + i + '.');
            Database.Error err = results[i].getErrors()[0];
            System.debug('Error Code: ' + err.getStatusCode());
            System.debug('Error Message: ' + err.getMessage());
            System.debug('Fields with Error: ' + err.getFields());
        }
    }
}

注意事项

权限与可见性 (Permissions & Visibility): 归档数据的访问权限需要被严格控制。对于 Big Objects，需要通过权限集分配对象的读写权限。对于外部系统，需要设计安全的认证授权机制，如 OAuth 2.0。确保只有授权用户才能访问敏感的历史数据。
API 限制 (API Limits): 在进行大规模数据迁移时，必须考虑 Salesforce 的 API 调用限制。优先使用 Bulk API 2.0，它专为处理大量数据集而设计，消耗的 API 调用次数更少。避免在循环中执行 SOQL 或 DML 操作，始终遵循 Apex 最佳实践。
数据完整性与校验 (Data Integrity & Validation): 归档过程是一个“移动”而非“复制”的过程。必须建立一个闭环流程：1. 从源系统抽取数据。2. 载入到目标归档系统。3. 校验目标系统的数据与源系统是否完全一致。4. 在校验成功后，再从源系统（Salesforce）中删除数据。这个过程必须具备强大的错误处理和重试机制。
治理与数据保留策略 (Governance & Retention Policy): 在实施任何技术方案之前，必须与业务、法务和合规团队共同制定清晰的数据保留策略。明确定义哪类数据、在满足什么条件后、需要被归档，以及归档数据需要保留多久。技术方案只是实现这一策略的手段。
用户体验 (User Experience): 如果业务用户有检索归档数据的需求，必须提供一个无缝的访问体验。例如，可以在客户记录页面上创建一个 LWC，当用户点击“查看历史记录”时，该组件通过 API 调用外部系统，并将归档数据显示在 Salesforce UI 中。避免让用户跳转到另一个完全陌生的系统去查询数据。

总结与最佳实践

数据归档不是一次性的项目，而是一个需要持续治理的流程。作为 Salesforce 架构师，我们必须从平台长远发展的角度来推动和设计归档策略。

最佳实践总结：

主动规划，而非被动响应：不要等到性能问题爆发或存储空间耗尽时才开始考虑归档。在系统设计之初就应将数据生命周期管理 (Data Lifecycle Management) 纳入考量。
分层数据策略 (Tiered Data Strategy): 根据数据的价值和访问频率，将其分为“热数据”（活跃，存放在 Salesforce 标准对象）、“温数据”（不常访问，可存放在 Big Objects 或 Heroku）和“冷数据”（极少访问，存放在低成本的云存储）。
自动化是关键：归档过程应该是完全自动化的，通过预定的批处理任务或 ETL 作业来执行，减少人工干预和潜在的错误。
为检索而设计 (Design for Retrieval): 归档的最终目的是“存”和“取”。在设计存储方案时，必须同步设计好数据的检索方案。否则，归档数据就变成了无法利用的“数据坟场”。
监控与迭代：持续监控 Salesforce 的数据存储增长趋势和系统性能指标。定期回顾归档策略的有效性，并根据业务变化进行调整和优化。

总之，一个成功的 Salesforce 数据归档策略是技术选型、业务流程和治理政策的完美结合。它能有效释放 Salesforce 平台的潜力，确保其在未来数年内始终保持高性能、高性价比和高扩展性，为企业的持续成功保驾护航。

Salesforce Einstein AI 编程实践：开发者视角下的智能预测

九月 15, 2025

阅读全文

Salesforce中文网