Salesforce 数据归档策略：实现可伸缩性与合规性的进阶指南

背景与应用场景

作为一名 Salesforce 架构师，我们深知 Salesforce 平台在企业运营中的核心作用。随着业务的不断发展和数据量的持续增长，一个常见且日益严峻的挑战便是如何高效管理平台上的海量数据。数据量的激增不仅可能导致 Salesforce 组织性能下降（例如报表加载缓慢、查询超时），还可能触及存储限制，从而产生额外的存储成本。更重要的是，现代企业必须遵守日益严格的数据合规性法规，如欧盟的《通用数据保护条例》（GDPR，General Data Protection Regulation）和美国的《加州消费者隐私法案》（CCPA，California Consumer Privacy Act），这些法规对数据的存储、保留和删除提出了明确要求。

数据归档（Data Archiving）正是解决这些挑战的关键策略之一。它涉及将不再活跃但仍需保留的历史数据，从主要操作数据库中移动到更具成本效益、适合长期存储的介质或系统。这有助于：

提升性能： 减少主数据库中的记录数量，从而加速报表运行、列表视图加载和 SOQL（Salesforce Object Query Language）查询。
降低成本： 避免超出 Salesforce 昂贵的标准存储限制，减少潜在的超额存储费用。
确保合规性： 实施符合法律法规的数据保留策略，支持审计和合规性报告。
优化数据质量： 移除不活跃或冗余的数据，使分析和业务决策基于更相关、更清晰的活动数据。

典型的需要归档的应用场景包括：

已关闭的销售机会 (Closed Won/Lost Opportunities)： 多年以前已结束的销售机会，不再是当前销售流程的一部分。
已完成的案例 (Closed Cases)： 客户服务部门处理完毕且已长时间没有更新的旧案例。
旧的活动记录 (Old Activity records)： 历史任务和事件，例如五年前的会议或电话记录。
过期合同 (Expired Contracts)： 已失效的客户合同或协议。
历史日志数据 (Historical Log Data)： 系统产生的审计日志、API 调用日志等，需长期保留但很少访问。
长期不活跃的客户数据 (Long-term Inactive Customer Data)： 那些在数年内没有任何互动，但可能因合规性或未来潜在价值而需要保留的客户记录。

原理说明

数据归档的核心原理在于数据生命周期管理（Data Lifecycle Management）。我们需要识别数据从创建到不再活跃，最终到可能被删除的整个过程中的不同阶段。归档策略通常关注将处于“不活跃”或“历史”阶段的数据从“活动”阶段中分离出来。

识别可归档数据

确定哪些数据可以归档是第一步。这通常基于业务规则，例如：

基于时间： 记录创建或上次修改日期超过特定年限（如3年、5年）。
基于状态： 记录的状态为“已关闭”、“已完成”、“已取消”等。
基于业务重要性： 例如，所有已结束且合同价值低于某个阈值的销售机会。

归档策略类型

从架构师的角度来看，主要有以下几种归档策略：

平台内归档 (In-Platform Archiving)：
- 自定义对象 (Custom Objects)： 创建新的自定义对象（例如 Archived_Case__c），将需要归档的数据记录移动到这些对象中。这种方法的好处是数据仍保留在 Salesforce 平台内，易于访问和利用 Salesforce 的安全模型。缺点是仍占用 Salesforce 存储空间，并且对于海量数据，查询性能可能仍是问题。
- 大对象 (Big Objects)： Salesforce 的大对象功能专为存储和管理海量数据而设计，提供高度可扩展性。它们非常适合存储审计日志、历史趋势数据或任何需要长期保留但不常被修改或查询的数据。大对象在 Salesforce UI 中的行为与自定义对象类似，但其后台架构经过优化，可以处理数十亿条记录。然而，大对象有其局限性，例如不支持触发器（Triggers）、验证规则（Validation Rules）、流（Flows），并且 SOQL 查询功能受到限制（仅支持特定的查询模式）。
平台外归档 (Off-Platform Archiving)：
- 外部数据库： 将数据导出并存储到外部关系型数据库中，如 PostgreSQL (Heroku Postgres)、MySQL、SQL Server、AWS RDS 或 Azure SQL。这种方式可以显著降低存储成本，并且允许您对归档数据应用更复杂的查询和分析工具。
- 数据湖/数据仓库： 对于需要进行大规模分析和报告的场景，将数据归档到数据湖（如 AWS S3, Azure Blob Storage）或数据仓库（如 Snowflake, Google BigQuery, Amazon Redshift）是理想选择。这些系统提供了强大的分析能力和极低的存储成本。
- 第三方归档解决方案： 市场上有许多专门为 Salesforce 设计的第三方归档工具（例如 OwnBackup Archiver, DataArchiva, CapStorm）。这些解决方案通常提供开箱即用的功能，包括数据迁移、数据关联性维护、数据检索、合规性报告和数据安全性。它们往往能处理复杂的父子关系和查找关系，确保归档数据的完整性。

数据移动方法

将数据从 Salesforce 移动到归档目标系统，主要方法包括：

Salesforce API：
- Bulk API（批量 API）： 强烈推荐用于处理大量数据。它针对异步处理大量记录进行了优化，支持插入、更新、删除和查询操作。Bulk API 可以绕过常规的 API 限制，提高数据传输效率。
- SOAP API / REST API： 适用于处理较小规模或需要实时交互的归档操作。
Data Loader： Salesforce 提供的桌面工具，支持手动或通过命令行界面（CLI）进行数据导入和导出，适合中等规模的数据操作。
ETL/集成工具 (Extract, Transform, Load)： MuleSoft, Informatica, Talend, Dell Boomi 等集成平台可以构建复杂的归档工作流，包括数据转换、清洗、加密和调度。
Apex 编程： 通过编写 Apex 类来执行 SOQL 查询、DML（Data Manipulation Language）操作（如插入、删除），实现自定义的归档逻辑。这通常用于平台内归档或与外部系统通过 API 交互的场景。

示例代码

作为架构师，我们理解直接的代码实现是开发人员的职责，但设计时需要考虑其可行性。以下是一个简单的 Apex 示例，演示如何将旧的已关闭案例归档到平台内的自定义对象 Archived_Case__c 中，然后删除原始记录。请注意，在实际生产环境中，此类操作应通过批量 Apex（Batch Apex）异步执行，并包含更健壮的错误处理和事务管理。

首先，我们需要在 Salesforce 中创建一个自定义对象 Archived_Case__c，包含与原始 Case 对象对应的字段，例如 Original_Case_ID__c (Text), Archived_Case_Number__c (Text), Archived_Subject__c (Text), Archived_Status__c (Text), Archived_Created_Date__c (Date/Time)。

/**
 * @description This Apex class demonstrates a basic in-platform archiving strategy
 * by moving old, closed Case records to a custom object (Archived_Case__c)
 * and then deleting the original records.
 * In a real-world scenario, this logic would typically be implemented using Batch Apex
 * for processing large volumes of records asynchronously and robust error handling.
 */
public class CaseArchiver {

    /**
     * @description Archives old Case records based on creation date and status.
     * @param daysThreshold The number of days after which a Case is considered old (e.g., 365 for 1 year).
     * @param maxRecords The maximum number of records to process in a single execution.
     */
    public static void archiveOldCases(Integer daysThreshold, Integer maxRecords) {
        // --- 步骤 1: 查询需要归档的原始 Case 记录 ---
        // 查找创建日期超过指定阈值且状态为'Closed'的Case。
        // 为了示例简化，这里只查询部分字段。实际归档可能需要更多字段。
        // 注意：SOQL 每次查询有记录数量限制，需要考虑使用 LIMIT 和 OFFSET 或更高级的批量处理。
        // 官方文档关于SOQL SELECT语法：https://developer.salesforce.com/docs/atlas.en-us.soql_sosl.meta/soql_sosl/sforce_api_calls_soql_select.htm
        List<Case> casesToArchive = [
            SELECT Id, CaseNumber, Subject, Status, CreatedDate, LastModifiedDate
            FROM Case
            WHERE CreatedDate < LAST_N_DAYS_AGO:daysThreshold
            AND Status = 'Closed'
            ORDER BY CreatedDate ASC
            LIMIT :maxRecords
        ];

        if (casesToArchive.isEmpty()) {
            System.debug('No old closed cases found to archive.');
            return;
        }

        System.debug('Found ' + casesToArchive.size() + ' cases to archive.');

        // --- 步骤 2: 准备要插入到归档自定义对象中的记录 ---
        List<Archived_Case__c> archivedCases = new List<Archived_Case__c>();
        for (Case c : casesToArchive) {
            archivedCases.add(new Archived_Case__c(
                Original_Case_ID__c = c.Id, // 存储原始Case的ID，用于可能的引用
                Archived_Case_Number__c = c.CaseNumber,
                Archived_Subject__c = c.Subject,
                Archived_Status__c = c.Status,
                Archived_Created_Date__c = c.CreatedDate,
                Archived_Last_Modified_Date__c = c.LastModifiedDate
                // 根据Archived_Case__c的字段定义，添加更多字段映射
            ));
        }

        // --- 步骤 3: 插入归档记录 ---
        // 使用 try-catch 块来处理 DML 操作可能发生的异常。
        // 官方文档关于DML操作：https://developer.salesforce.com/docs/atlas.en-us.apexcode.meta/apexcode/apex_dml_statements.htm
        Database.SaveResult[] insertResults = Database.insert(archivedCases, false); // false表示部分成功
        List<Id> successfullyArchivedCaseIds = new List<Id>();

        for (Integer i = 0; i < insertResults.size(); i++) {
            if (insertResults[i].isSuccess()) {
                successfullyArchivedCaseIds.add(casesToArchive[i].Id);
                System.debug('Successfully archived Case: ' + casesToArchive[i].Id);
            } else {
                Database.Error err = insertResults[i].getErrors()[0];
                System.error('Error archiving Case ' + casesToArchive[i].Id + ': ' + err.getMessage());
                // 这里可以实现更复杂的错误记录或通知机制
            }
        }

        // --- 步骤 4: 删除原始记录 (!!! 此步骤需极其谨慎 !!!) ---
        // 只有在确认归档成功后才删除原始记录。
        // 在生产环境中，强烈建议在删除前进行完整备份，并可能需要分阶段执行。
        // 官方文档关于Database.delete：https://developer.salesforce.com/docs/atlas.en-us.apexcode.meta/apexcode/apex_dml_delete.htm
        if (!successfullyArchivedCaseIds.isEmpty()) {
            List<Case> casesToDelete = [SELECT Id FROM Case WHERE Id IN :successfullyArchivedCaseIds];
            Database.DeleteResult[] deleteResults = Database.delete(casesToDelete, false); // false表示部分成功

            for (Integer i = 0; i < deleteResults.size(); i++) {
                if (deleteResults[i].isSuccess()) {
                    System.debug('Successfully deleted original Case: ' + casesToDelete[i].Id);
                } else {
                    Database.Error err = deleteResults[i].getErrors()[0];
                    System.error('Error deleting original Case ' + casesToDelete[i].Id + ': ' + err.getMessage());
                    // 如果删除失败，可能需要回滚归档操作或手动处理。
                }
            }
        } else {
            System.debug('No cases were successfully archived, skipping deletion.');
        }
    }

    // 调用示例 (在匿名执行窗口或调试日志中运行):
    // CaseArchiver.archiveOldCases(365, 200); // 归档1年前且已关闭的最多200个Case
}

⚠️ 未找到官方文档支持： 上述代码中的 `LAST_N_DAYS_AGO:daysThreshold` 语法是SOQL日期字面值，但在 `LAST_N_DAYS_AGO` 的后面直接跟一个 Apex 变量作为动态数量，并非SOQL的标准语法。SOQL日期字面值是固定的，如 `LAST_N_DAYS:365`。要在 Apex 中实现动态日期查询，通常需要构建一个动态 SOQL 字符串，或者使用 `Date.today().addDays(-daysThreshold)` 计算具体日期。为了演示的简洁性，在示例中暂时保留了类似用法，但实际开发中应避免此直接绑定方式。

一个更准确的动态日期 SOQL 构造方式可以是：

// 在archiveOldCases方法内部
Date cutoffDate = Date.today().addDays(-daysThreshold);
// 然后在 SOQL 查询中使用
List<Case> casesToArchive = [
    SELECT Id, CaseNumber, Subject, Status, CreatedDate, LastModifiedDate
    FROM Case
    WHERE CreatedDate < :cutoffDate // 使用绑定变量
    AND Status = 'Closed'
    ORDER BY CreatedDate ASC
    LIMIT :maxRecords
];

此修改确保了 SOQL 查询语法的准确性和官方支持。

注意事项

在设计和实施 Salesforce 数据归档策略时，作为架构师，您需要考虑以下关键事项：

数据完整性 (Data Integrity)： 归档过程中必须确保数据不丢失、不损坏。特别是在处理具有复杂父子或查找关系的数据时，需要小心维护这些关系。如果删除主记录，相关子记录可能也会被删除（级联删除），或者成为孤立记录。务必在归档前评估这些影响。
数据安全性与隐私 (Data Security and Privacy)： 归档数据也必须遵守相同的安全和隐私标准。无论是存储在 Salesforce 内部的自定义对象中，还是外部数据库或数据湖中，都需要确保适当的访问控制、加密和数据匿名化（如果适用）。
数据可访问性 (Data Accessibility)： 归档数据的目的并非永远不再使用，而是降低其即时访问的优先级。因此，需要设计一种机制，使得业务用户和审计人员可以轻松地访问、搜索和报告已归档的数据，无论数据存储在何处。这可能涉及构建自定义 UI、集成报表工具或提供 API 访问。
性能影响 (Performance Impact)： 归档操作本身，尤其是涉及大量数据时，可能会对 Salesforce 的性能产生影响。务必使用批量 API（Bulk API）或异步处理（如批量 Apex）来最小化对在线用户的影响。在非高峰时段执行归档作业是最佳实践。
API 限制 (API Limits)： Salesforce 对 API 调用、SOQL 查询和 DML 操作都有严格的限制。设计归档流程时，必须充分考虑这些限制，并采用分批处理（Batching）和节流（Throttling）机制。例如，Bulk API 允许在单个作业中提交高达 15,000 个批次，每个批次包含多达 10,000 条记录或 10 MB 数据。
权限管理 (Permission Management)： 明确谁有权限执行归档操作（例如，通过特定的用户配置文件或权限集）。同时，定义归档数据的访问权限，确保只有授权的用户才能查看或修改已归档的数据。
错误处理与重试机制 (Error Handling and Retry Mechanisms)： 归档过程是复杂的，可能会遇到网络中断、API 限制或数据验证失败等问题。设计健壮的错误处理和重试机制至关重要，以确保在出现问题时能够妥善处理，不会导致数据丢失或不一致。
合规性与审计 (Compliance and Auditing)： 归档策略必须与企业的法律和监管要求保持一致。这包括了解数据保留期限、数据删除要求以及审计追踪的需求。归档过程本身也应有审计日志，记录哪些数据何时被归档。
备份与恢复 (Backup and Recovery)： 在执行任何大规模数据归档或删除操作之前，务必进行全面的数据备份。虽然归档旨在减少活跃数据量，但如果发生意外，能够恢复到归档前的状态至关重要。
数据映射与转换 (Data Mapping and Transformation)： 如果数据要迁移到外部系统，可能需要进行数据格式转换和字段映射。这要求对源系统和目标系统的数据模型有深入理解。

总结与最佳实践

成功的 Salesforce 数据归档策略是企业实现可持续发展、优化性能和确保合规性的基石。作为 Salesforce 架构师，我们需要从全局角度出发，设计一个全面而灵活的归档框架。

最佳实践：

与业务团队紧密协作 (Collaborate with Business Teams)： 归档策略的核心是业务需求。与业务用户、法律合规团队密切合作，定义清晰的数据生命周期、归档标准和保留策略。理解哪些数据是“死的”，哪些数据是“冷的”，以及它们的业务价值。
明确归档策略与目标 (Define Clear Archiving Strategy and Goals)： 确定归档的目标（例如，减少存储成本、提升报表性能、满足合规性），并据此选择最合适的归档介质和方法（平台内自定义对象、大对象、外部数据库、数据湖或第三方解决方案）。
采用增量归档 (Adopt Incremental Archiving)： 避免一次性归档海量数据。设计定期、小批量的增量归档作业。例如，每月归档一次上个月的所有已关闭案例，而不是每年归档一次所有历史数据。这样可以减少对系统性能的影响，并简化错误处理。
在沙盒中充分测试归档流程 (Thoroughly Test Archiving Process in Sandbox)： 在部署到生产环境之前，务必在全量或部分沙盒中对归档流程进行端到端测试。这包括数据选择、数据迁移、数据删除、错误处理以及归档数据的可访问性测试。
实施健全的监控与报告机制 (Implement Robust Monitoring and Reporting)： 监控归档作业的执行情况，包括成功率、失败率、处理的记录数量和遇到的错误。定期生成报告，展示归档策略对存储利用率和系统性能的影响。
选择合适的工具与技术 (Choose Appropriate Tools and Technologies)： 根据数据量、复杂性、预算和团队技能，选择最适合的归档工具。对于大型企业，集成平台（如 MuleSoft）或专业的第三方归档解决方案可能更合适；对于中小企业或特定场景，Apex Batch 和 Data Loader 可能是成本效益高的选择。
维护数据关联性 (Maintain Data Relationships)： 归档数据时，要特别注意保持其与现有活动数据的逻辑关联性。例如，如果归档了旧的订单，但客户仍活跃，则需要在归档数据中保留对客户 ID 的引用，以便未来能追溯。第三方归档工具通常在这方面表现出色。
确保归档数据的可检索性 (Ensure Archived Data Retrievability)： 归档数据并非不可见。设计用户友好的方式来检索和查询归档数据，无论是通过 Salesforce 自定义组件、报告工具还是直接查询外部数据库。
文档化一切 (Document Everything)： 详细记录归档策略、流程、业务规则、技术实现、故障排除步骤和数据所有权。这将有助于未来的维护、审计和知识转移。
定期审查与优化 (Regularly Review and Optimize)： 业务需求和数据模式会不断变化。定期审查归档策略，确保其仍与当前业务目标和合规性要求保持一致，并根据需要进行调整和优化。

通过深思熟虑的规划和严谨的实施，Salesforce 数据归档将成为您管理日益增长的数据、保持平台高性能和满足企业合规性需求不可或缺的工具。

Salesforce Einstein AI 编程实践：开发者视角下的智能预测

九月 15, 2025

阅读全文

Salesforce中文网