高效 Salesforce 数据归档策略：实现最佳性能与合规性

背景与应用场景

作为一名 Salesforce 架构师，我在设计可扩展、高性能且成本可控的 Salesforce 解决方案时，始终将数据生命周期管理置于核心位置。随着业务的增长，Salesforce org 中的数据量会呈指数级增长。当数据量达到一定规模，即所谓的 Large Data Volumes (LDV)，组织将面临一系列严峻的挑战：

性能下降：报告和仪表板加载缓慢、SOQL 查询超时、列表视图响应迟钝，这些都会严重影响用户体验和业务效率。
存储成本增加：Salesforce 的数据存储是宝贵且昂贵的资源。超出存储限制后，购买额外存储空间的成本会成为一笔不小的开销。
合规性风险：诸如 GDPR（通用数据保护条例）、CCPA（加州消费者隐私法）等法规对数据保留有严格规定。缺乏明确的数据归档和清除策略可能导致合规风险。
敏捷性降低：在充满海量历史数据的环境中进行开发、测试和部署（例如运行测试类、刷新沙箱）会变得更加缓慢和复杂。

因此，制定一套全面的数据归档策略 (Archiving Strategy) 不再是一个可选项，而是保障 Salesforce 平台长期健康运行的必需品。应用场景非常广泛，例如：

归档已关闭超过2年的客户服务个案 (Case)。
归档已完成多年的活动 (Task) 和事件 (Event)。
归档“失败/关闭”状态超过5年的业务机会 (Opportunity)。
归档来自旧系统的、仅供查阅的历史自定义对象记录。

一个有效的归档策略旨在将不再频繁访问的、但仍需保留以备查验或满足合规性要求的数据，从主要的、活跃的 Salesforce 对象中移出，从而释放存储空间、提升系统性能，并确保数据治理的合规性。

原理说明

从架构师的角度看，Salesforce 数据归档策略并非单一的技术方案，而是一个需要综合考量业务需求、技术实现、成本效益和用户体验的系统工程。其核心原理是将数据从“热”存储（昂贵的、高性能的 Salesforce 主数据库）转移到“冷”存储（成本更低的、访问频率较低的存储系统）。我们可以将主流的归档策略分为以下三类：

1. 内部归档 (Internal Archiving)

原理：这是最简单的归档方式。我们会在 Salesforce 内部创建一个或多个自定义的“归档对象”，其结构与需要归档的标准或自定义对象类似。然后，通过 Apex Batch、数据加载工具或其他自动化流程，将符合归档条件的旧记录从主对象复制到这个归档对象中，最后再从主对象中删除这些记录。

优点：

数据留存平台内：数据仍然在 Salesforce 平台，可以利用标准的报表、仪表板和全局搜索进行访问。
安全性：继承了 Salesforce 成熟的共享和安全模型，无需担心外部系统的安全配置。
实现简单：技术实现相对直接，不需要复杂的外部集成。

缺点：

未解决存储成本问题：数据只是从一个表移动到另一个表，仍然消耗昂贵的 Salesforce 数据存储空间。
性能提升有限：虽然减轻了主对象的 LDV 问题，但整个 org 的总数据量并未减少，对整体性能（如沙箱刷新速度）的改善有限。

2. 外部归档 (External Archiving)

原理：这是最彻底的归档方式。将符合条件的旧数据从 Salesforce 中完全导出，并存储到一个外部系统中。这个外部系统可以是云存储服务（如 Amazon S3, Azure Blob Storage）、数据仓库（如 Amazon Redshift, Google BigQuery, Snowflake）或企业内部的数据库。

优点：

显著节省成本：外部存储的单位成本远低于 Salesforce 存储，可以大幅降低存储开销。
最大化性能提升：将数据物理上移出 Salesforce，最有效地解决了 LDV 问题，显著提升主对象乃至整个 org 的性能。
灵活的分析能力：将数据移至专业的数据仓库后，可以利用更强大的 BI 和分析工具进行深度数据挖掘。

缺点：

实现复杂：需要建立可靠的集成（ETL/ELT 流程）来抽取、转换和加载数据。
访问不便：用户无法在 Salesforce UI 中直接访问已归档的数据。通常需要通过外部报表系统或构建特定的集成界面（如 Lightning Web Component）来查询。
安全与合规：需要为外部系统单独设计和实施一套完善的安全和权限控制策略，并确保其满足数据主权和合规要求。

3. 混合归档 (Hybrid Archiving) / 近线存储 (Near-line Storage)

原理：这种策略试图在内部归档和外部归档之间找到一个平衡点。它通常涉及将详细的、占用空间大的数据（如富文本字段、附件）移动到外部系统，但在 Salesforce 中保留一个轻量级的“存根”记录 (stub record)。这个存根记录包含了关键的索引信息（如个案编号、客户名称、关闭日期）和一个指向外部完整记录的链接（例如一个 URL 字段或 External ID）。

利用 Salesforce Connect 和外部对象 (External Objects)，我们甚至可以实现更无缝的体验，让外部归档数据像原生 Salesforce 对象一样显示在相关列表和页面布局中，支持部分查询功能。

优点：

兼顾性能与可访问性：既减轻了主对象的负担，又在 Salesforce UI 中保留了对归档数据的可见性和基本访问能力。
平衡成本与复杂性：比纯外部归档的集成和用户体验改造成本更低。

缺点：

架构设计更复杂：需要精心设计存根对象和外部数据源之间的数据模型和关系。
功能限制：通过 Salesforce Connect 访问的外部对象不支持所有的 SOQL 查询功能、触发器和验证规则，报表功能也有限。

示例代码

在设计自定义归档流程时，Batch Apex 是处理大规模数据集的首选工具。它允许我们异步地处理数百万条记录，而不会超出 Governor Limits。以下是一个基于 Salesforce 官方文档结构的 Batch Apex 示例，用于识别并处理需要归档的旧个案 (Case) 记录。这个例子作为归档流程的第一步：识别和删除。

场景：归档所有已关闭超过 730 天（2年）的个案。

/**
 * @description Batch Apex class to identify old, closed Cases for archiving.
 * In a real-world scenario, the execute method would first send these records
 * to an external system via a callout before deleting them.
 * This example focuses on the identification and deletion process.
 */
public class ArchiveOldCasesBatch implements Database.Batchable<sObject>, Database.Stateful, Database.AllowsCallouts {

    // 状态变量，用于在批次之间跟踪处理结果
    private Integer recordsProcessed = 0;
    private Integer errorCount = 0;

    /**
     * @description The start method is called at the beginning of a batch Apex job.
     * It returns a Database.QueryLocator or an iterable that contains the records to be processed.
     * @param bc The context for the batch job.
     * @return A Database.QueryLocator for the Cases to be archived.
     */
    public Database.QueryLocator start(Database.BatchableContext bc) {
        // 定义归档日期阈值，例如2年前
        Date archiveDateThreshold = Date.today().addDays(-730);

        // 构建 SOQL 查询，查找所有在阈值日期之前关闭的个案
        // 这是归档策略的核心：准确识别目标数据
        String query = 'SELECT Id, CaseNumber, Status, ClosedDate FROM Case WHERE IsClosed = true AND ClosedDate < :archiveDateThreshold';
        
        return Database.getQueryLocator(query);
    }

    /**
     * @description The execute method is called for each batch of records passed to the method.
     * @param bc The context for the batch job.
     * @param scope A list of sObjects to be processed.
     */
    public void execute(Database.BatchableContext bc, List<Case> scope) {
        List<Id> caseIdsToDelete = new List<Id>();

        // ** 归档关键步骤 **
        // 在实际的外部归档场景中，你将在这里进行 API Callout
        // 1. 将 'scope' 中的 Case 记录序列化为 JSON 或 CSV 格式。
        // 2. 调用外部归档系统的 API (e.g., AWS S3, Heroku) 将数据发送出去。
        //    (注意: 必须使用 Database.AllowsCallouts 接口)
        // 3. 确认外部系统成功接收并存储数据后，才将记录ID添加到待删除列表。

        // 本示例简化了流程，直接准备删除
        for (Case c : scope) {
            // 假设外部归档已成功，我们将 Case ID 加入待删除列表
            caseIdsToDelete.add(c.Id);
            recordsProcessed++;
        }

        try {
            if (!caseIdsToDelete.isEmpty()) {
                // 执行删除操作
                Database.delete(caseIdsToDelete, false); // a
            }
        } catch (DmlException e) {
            errorCount += caseIdsToDelete.size();
            // 复杂的错误处理：可以记录失败的ID，以便后续重试
            System.debug('Error deleting cases: ' + e.getMessage());
        }
    }

    /**
     * @description The finish method is called after all batches are processed.
     * Use this method to send confirmation emails or execute post-processing operations.
     * @param bc The context for the batch job.
     */
    public void finish(Database.BatchableContext bc) {
        // 获取异步 Apex 作业的信息
        AsyncApexJob job = [SELECT Id, Status, NumberOfErrors, JobItemsProcessed,
            TotalJobItems, CreatedBy.Email
            FROM AsyncApexJob WHERE Id = :bc.getJobId()];

        // 发送一封总结邮件给启动该任务的用户
        Messaging.SingleEmailMessage mail = new Messaging.SingleEmailMessage();
        String[] toAddresses = new String[] {job.CreatedBy.Email};
        mail.setToAddresses(toAddresses);
        mail.setSubject('Case Archiving Batch Job Status: ' + job.Status);
        mail.setPlainTextBody(
            'The Case archiving batch job has finished.\n\n' +
            'Job ID: ' + job.Id + '\n' +
            'Status: ' + job.Status + '\n' +
            'Total Batches: ' + job.TotalJobItems + '\n' +
            'Batches Processed: ' + job.JobItemsProcessed + '\n' +
            'Records Processed: ' + recordsProcessed + '\n' +
            'Failures: ' + (job.NumberOfErrors > 0 ? job.NumberOfErrors : errorCount)
        );
        Messaging.sendEmail(new Messaging.SingleEmailMessage[] { mail });
    }
}

要执行此批处理作业，管理员或开发人员可以在开发者控制台中运行以下匿名 Apex 代码：

// 启动批处理作业，可以指定批次大小，例如200
Database.executeBatch(new ArchiveOldCasesBatch(), 200);

注意事项

作为架构师，在设计和实施归档策略时，必须周全考虑以下几点：

数据完整性 (Data Integrity):
- 关系维护：在归档子记录（如 Case）之前，要考虑其与父记录（如 Account）的关系。归档或删除操作是否会破坏业务逻辑？是否需要处理级联删除或重新指定父级？
- 主从关系和查找关系：在删除记录前，必须处理好关联关系。对于主从关系，子记录必须先于主记录被处理。
- 恢复索引：在外部归档时，务必在外部系统存储 Salesforce Record ID，并在 Salesforce 的存根记录（如果使用混合模式）上创建一个 External ID 字段存储外部系统的主键。这对于未来的数据恢复或关联至关重要。
权限与安全 (Permissions and Security):
- 外部系统的安全性是重中之重。必须确保其访问控制、加密标准（静态和传输中）与 Salesforce 的安全级别相匹配，甚至更高。
- 谁有权访问归档数据？如何审计访问日志？这些都需要在外部系统中进行配置。
API 限制 (API Limits):
- 对于大量数据的导出，应优先使用 Bulk API 2.0，它专为高效处理大型数据集而设计，消耗的 API 调用次数更少。
- 自定义的 Apex 归档逻辑需要严格遵守 Apex Governor Limits，如 SOQL 查询行数、DML 操作次数和 CPU 时间。Batch Apex 正是为此而生。
恢复策略 (Restore Strategy):
- “归档”不等于“备份”。归档策略必须包含一个明确、经过测试的“恢复”流程。如果业务部门要求将某条已归档的记录恢复到 Salesforce，你需要多长时间？流程是怎样的？
- 恢复过程可能比归档更复杂，因为它需要重建记录之间的关联关系。
用户体验 (User Experience):
- 与业务方充分沟通，让他们了解哪些数据被归档以及如何访问这些数据。突然消失的数据会引起用户的困惑和不满。
- 如果采用混合或外部归档，应提供尽可能无缝的访问方式，例如在 Lightning 页面上嵌入一个链接，或使用 LWC 调用外部 API 来展示数据。
工具选择 (Tooling):
- 自建 (Build) vs. 购买 (Buy)：评估是利用 Salesforce 原生工具（Data Loader, Batch Apex, API）和外部存储自建一套解决方案，还是购买 AppExchange 上的成熟归档产品（如 OwnBackup Archive, Odaseva, Spanning）。商业产品通常提供了开箱即用的归档、恢复、策略管理和合规报告功能，但会产生额外的许可费用。作为架构师，需要进行详细的 TCO（总拥有成本）分析。

总结与最佳实践

数据归档是 Salesforce 治理中一项主动且持续的战略任务，而不是一次性的清理项目。一个成功的归档策略能够为企业带来长期的价值，包括提升系统性能、控制成本和降低合规风险。

作为 Salesforce 架构师，我建议遵循以下最佳实践：

定义明确的数据保留策略 (Data Retention Policy)
与法务、合规和业务部门合作，为每个关键对象定义数据的生命周期。例如，“客户服务个案关闭2年后归档，7年后永久删除”。这是所有技术决策的基石。
从数据分析开始
在采取任何行动前，先使用工具（如 Salesforce 的存储使用情况页面、字段级使用情况分析）了解你的数据构成。哪个对象增长最快？哪个对象占用的存储最多？用户对旧数据的访问频率如何？
选择合适的归档模型
基于成本、合规要求、数据访问频率和技术资源，为不同类型的数据选择最合适的归档策略（内部、外部或混合）。并非所有数据都适用同一种方法。
试点先行 (Pilot Program)
选择一个影响范围较小、业务关键性较低的对象作为试点，完整地测试你的归档和恢复流程。这有助于发现潜在问题并优化流程。
自动化与监控
归档应该是自动化的、可调度的过程（如每周或每月运行的 Batch Apex）。同时，建立监控机制，跟踪归档作业的成功率、归档的数据量以及对系统性能和存储的积极影响。
文档化和培训
详尽地记录你的归档架构、流程和恢复步骤。对最终用户和管理员进行培训，确保他们理解变更并知道如何在需要时查找归档数据。

最终，数据归档策略的核心是平衡。在数据价值、访问需求、系统性能、存储成本和合规风险之间找到最佳平衡点，是每一位 Salesforce 架构师在设计可扩展企业级解决方案时必须面对和解决的关键课题。

精通 Salesforce Email Studio：咨询顾问指南之 AMPscript 与数据扩展实现动态个性化邮件

十月 07, 2025

阅读全文

Salesforce中文网