Salesforce Einstein Vision：图像识别与光学字符识别技术深度解析

背景与应用场景

在当今数据驱动的商业环境中，非结构化数据，特别是图像数据，蕴含着巨大的商业价值。Salesforce Einstein Vision 是 Salesforce Einstein 平台的一部分，它提供了一套强大的、基于 REST API 的人工智能服务，旨在让开发者能够轻松地将图像识别和光学字符识别 (Optical Character Recognition, OCR) 的能力集成到 Salesforce 平台及其他应用程序中。作为一名技术架构师，理解 Einstein Vision 的能力和应用场景是设计智能化、自动化业务流程的关键。

Einstein Vision 主要提供三大核心功能：

1. Einstein Image Classification (图像分类): 允许您训练自定义模型来识别和分类图片中的内容。模型可以根据您提供的业务特定标签（Labels）对整个图像进行归类。例如，它可以判断一张图片是“损坏的设备”还是“完好的设备”。

2. Einstein Object Detection (对象检测): 不仅能识别图像中的对象，还能定位这些对象在图片中的具体位置并进行计数。例如，在零售货架的照片中，它可以识别出所有“A 品牌可乐”的位置和数量。

3. Einstein OCR (光学字符识别): 从图片中提取文本信息。这对于自动化数据录入流程至关重要，例如扫描名片、发票、合同或产品序列号。

这些功能为各行各业带来了创新的解决方案：

现场服务 (Field Service): 技术人员可以拍摄设备部件的照片，系统通过图像分类自动识别部件型号，并从知识库中调取相关维修手册。
零售执行 (Retail Execution): 销售代表拍摄货架照片，系统利用对象检测分析商品陈列是否合规、库存是否充足。
市场营销 (Marketing): 分析社交媒体上包含品牌 logo 的用户生成内容 (UGC)，以评估品牌影响力。
保险理赔 (Insurance Claims): 投保人上传车辆损坏照片，系统通过图像分类初步评估损坏程度，加速理赔流程。
销售自动化 (Sales Automation): 销售人员用手机拍摄名片，系统通过 OCR 自动创建新的潜在客户 (Lead) 或联系人 (Contact) 记录。

原理说明

Einstein Vision 的工作原理是基于深度学习 (Deep Learning) 模型。Salesforce 将复杂的模型训练和推理过程封装成了简单易用的 REST API，开发者无需成为数据科学家即可使用。整个工作流程通常遵循以下步骤：

1. 认证 (Authentication)

所有对 Einstein Vision API 的调用都需要通过 OAuth 2.0 进行认证。您需要首先获取一个 Access Token (访问令牌)，并在后续的 API 请求中将其包含在 Authorization Header 中。这通常通过创建一个与 Einstein Platform Services 连接的 JWT (JSON Web Token) 或通过 Web Server 流程来完成。

2. 数据准备与模型训练 (Data Preparation & Model Training)

对于自定义的图像分类和对象检测，您需要先创建一个 Dataset (数据集)。数据集是一个包含图像和其对应标签的集合。

创建数据集: 您可以通过 API 上传一个包含图像文件的 .zip 文件来创建数据集。zip 文件内的目录结构通常用于定义标签（例如，名为 "cats" 的文件夹下的所有图片都会被自动标记为 "cat"）。
训练模型: 数据集准备好后，您可以调用训练 API 来创建一个 Model (模型)。Einstein 会在后台使用您的数据来训练一个深度学习模型。这个过程是异步的，可能需要几分钟到几小时不等，具体取决于数据集的大小和复杂性。
获取模型指标: 训练完成后，您可以查询模型的性能指标，如准确率 (accuracy)、F1 分数等，以评估模型质量。

对于 OCR，您无需训练自定义模型，可以直接使用 Salesforce 提供的预训练模型。

3. 预测 (Prediction)

模型训练完成后，就可以用它来进行预测了。您需要向预测 API 发送一个请求，请求体中包含要分析的图像。图像可以通过三种方式提供：

Base64 编码的字符串: 将图像文件内容进行 Base64 编码后直接放入 JSON 请求体中。
公开可访问的 URL: 提供图像所在的公开 URL。
multipart/form-data: 直接上传图像文件。

API 的响应是一个 JSON 对象，其中包含了预测结果。对于图像分类，它会返回一个或多个标签以及每个标签的置信度 (Probability)；对于对象检测，它会返回每个检测到的对象及其边界框 (Bounding Box) 坐标；对于 OCR，它会返回识别出的文本、每个单词或字符的位置信息。

示例代码

在 Salesforce 平台内部，与 Einstein Vision API 交互最常见的方式是使用 Apex。Salesforce 提供了官方的 Apex 包装类，极大地简化了 API 调用过程。以下示例代码均来自 Salesforce 官方文档，展示了如何使用这些 Apex 类来进行预测。

1. 使用 Einstein Vision Apex 类进行图像分类预测

此示例假设您已经训练好了一个图像分类模型，并获取了其 Model ID。代码将本地 Salesforce 文件中的图像发送给模型进行预测。

// 假设 contentVersionId 是 Salesforce 中一个 ContentVersion 记录的 ID
// 假设 modelId 是您在 Einstein Platform Services 中训练好的图像分类模型的 ID
public static String predictImageClassification(Id contentVersionId, String modelId) {
    // 从 ContentVersion 获取图像的 Blob 数据
    ContentVersion contentVersion = [SELECT VersionData FROM ContentVersion WHERE Id = :contentVersionId];
    Blob imageBlob = contentVersion.VersionData;

    // 创建一个预测请求实例
    // 第一个参数是模型类型，'image-classification' 代表图像分类
    // 第二个参数是模型 ID
    Einstein.VisionPredictionRequest predictionRequest = new Einstein.VisionPredictionRequest(
        'image-classification',
        modelId
    );

    // 将图像的 Blob 数据附加到请求中
    predictionRequest.blobValue = imageBlob;

    // 发送预测请求并获取响应
    Einstein.VisionPredictionResponse predictionResponse = Einstein.Vision.predict(predictionRequest);

    // 检查 API 调用是否成功
    if (predictionResponse.isSuccess()) {
        // 从响应中获取预测结果列表
        List<Einstein.VisionPrediction> predictions = predictionResponse.getPredictions();

        // 遍历并处理预测结果
        for (Einstein.VisionPrediction prediction : predictions) {
            System.debug('Label: ' + prediction.getLabel());
            System.debug('Probability: ' + prediction.getProbability());
        }

        // 返回原始的 JSON 响应以供进一步处理
        return predictionResponse.getOriginalResponse();
    } else {
        // 如果调用失败，记录错误信息
        System.debug('Error: ' + predictionResponse.getErrorMessage());
        return null;
    }
}

2. 使用 Einstein Vision Apex 类进行 OCR 文本识别

此示例展示了如何使用预训练的 OCR 模型来识别图像中的文本。OCR 的 Model ID 是一个固定的公共值 'OCRModel'。

// 假设 fileUrl 是一个公开可访问的图像 URL
public static String predictOcrFromUrl(String fileUrl) {
    // OCR 使用一个固定的公共模型 ID
    String ocrModelId = 'OCRModel';

    // 创建一个预测请求实例
    // 第一个参数是模型类型，'ocr' 代表光学字符识别
    // 第二个参数是固定的模型 ID 'OCRModel'
    Einstein.VisionPredictionRequest predictionRequest = new Einstein.VisionPredictionRequest(
        'ocr',
        ocrModelId
    );

    // 将图像的 URL 附加到请求中
    predictionRequest.urlValue = fileUrl;

    // 发送预测请求并获取响应
    Einstein.VisionPredictionResponse predictionResponse = Einstein.Vision.predict(predictionRequest);

    // 检查 API 调用是否成功
    if (predictionResponse.isSuccess()) {
        // OCR 的结果结构与分类不同，它包含文本和边界框
        List<Einstein.VisionPrediction> predictions = predictionResponse.getPredictions();

        for (Einstein.VisionPrediction prediction : predictions) {
            // 获取识别出的完整文本块
            System.debug('Detected Text: ' + prediction.getLabel());

            // 获取文本块的边界框坐标
            Einstein.BoundingBox boundingBox = prediction.getBoundingBox();
            if (boundingBox != null) {
                System.debug('Location (MinX, MinY): ' + boundingBox.minX + ', ' + boundingBox.minY);
                System.debug('Location (MaxX, MaxY): ' + boundingBox.maxX + ', ' + boundingBox.maxY);
            }

            // OCR 结果还包含更详细的 token 级别信息
            Map<String, Object> attributes = prediction.getAttributes();
            if (attributes != null && attributes.containsKey('tokenPositions')) {
                List<Object> tokens = (List<Object>) attributes.get('tokenPositions');
                System.debug('Number of tokens: ' + tokens.size());
            }
        }
        
        // 返回原始的 JSON 响应
        return predictionResponse.getOriginalResponse();
    } else {
        // 记录错误
        System.debug('Error: ' + predictionResponse.getErrorMessage());
        return null;
    }
}

注意事项

在架构设计和开发过程中，必须考虑以下几点：

1. 权限与设置 (Permissions & Setup)

权限集: 调用 Einstein Vision API 的用户需要被分配 "Einstein Vision and Language" 权限集，以确保他们有权限访问 Einstein Platform Services。

认证设置: 您需要在 Salesforce 中设置好连接到 Einstein API 的认证。这通常通过下载 Einstein Platform Services 的密钥文件并将其上传到 Salesforce 的证书和密钥管理中，然后创建一个指定的命名凭据 (Named Credential) 来简化 Apex Callout 的认证过程。

2. API 限制 (API Limits)

调用限制: Einstein Vision API 的使用是有配额限制的。这些限制通常按月、按组织计算。请务必查阅最新的 Salesforce 官方文档，了解您所用版本和许可证的预测调用次数限制。

Payload 大小: 上传的图像文件大小有限制，通常为 5MB 左右。对于更大的图像，需要预先进行压缩或调整大小。

Salesforce Governor Limits: 在 Apex 中进行调用时，您还必须遵守 Salesforce 平台的 Governor Limits，如 Callout 次数、CPU 时间、堆大小等。对于需要处理大量图像的场景，必须使用异步处理。

3. 错误处理 (Error Handling)

API 调用可能会因为各种原因失败，如无效的 token、超大的图像、不存在的模型 ID 或服务暂时不可用等。您的代码必须实现健壮的错误处理逻辑。检查 HTTP 响应状态码和 `Einstein.VisionPredictionResponse` 中的 `isSuccess()` 和 `getErrorMessage()` 方法至关重要。常见的状态码包括：

200 OK: 请求成功。
400 Bad Request: 请求格式错误，例如 JSON 无效或缺少必要参数。
401 Unauthorized: 认证失败，Access Token 无效或过期。
404 Not Found: 请求的模型 ID 不存在。
500 Internal Server Error: Einstein 服务端发生未知错误。

4. 异步处理 (Asynchronous Processing)

由于 API 调用可能耗时较长，并且为了避免触及 Governor Limits，强烈建议将 Einstein Vision 的调用放在异步 Apex 方法中，如 @future, Queueable Apex, 或者 Batch Apex。这不仅可以处理批量任务，还能改善用户体验，避免用户在界面上长时间等待响应。

总结与最佳实践

Salesforce Einstein Vision 是一个功能强大且易于集成的 AI 服务，能够显著提升 Salesforce 平台的智能化水平。作为技术架构师，在设计解决方案时应遵循以下最佳实践：

1. 从业务价值出发: 始终将技术的应用与具体的业务问题相结合。选择那些能够通过图像识别带来最高 ROI (投资回报率) 的场景进行落地。

2. 数据质量是关键: 对于自定义模型，训练数据的质量直接决定了模型的性能。"Garbage in, garbage out." 确保训练图像清晰、多样，并能代表真实世界的使用场景。每个标签至少需要 20 张图片才能开始训练，但官方推荐 100 张以上以获得更好的效果。

3. 构建可重用的服务层: 在 Apex 中，不要在触发器或 LWC 控制器中直接进行 API 调用。应将其封装在一个独立的、可重用的服务类中。这个服务类应负责处理认证、请求构建、响应解析和错误处理等所有逻辑。

4. 结合平台其他功能: Einstein Vision 的真正威力在于它与 Salesforce 核心功能的无缝结合。例如，您可以创建一个 Lightning Web Component (LWC) 供用户上传图片，Apex 控制器调用 Einstein Vision API，然后根据返回结果自动更新 Case 记录、创建 Task，或者触发一个 Platform Event 来启动更复杂的业务流程。

5. 监控与迭代: 持续监控 API 的使用情况和模型的性能。随着业务需求的变化和更多数据的积累，定期使用新的数据重新训练和迭代您的自定义模型，以保持其准确性。

通过遵循这些原则，您可以有效地利用 Einstein Vision 为企业构建出创新、高效且智能的应用程序，将图像数据的潜力转化为实实在在的商业洞察和自动化能力。

Salesforce Einstein AI 编程实践：开发者视角下的智能预测

九月 15, 2025

阅读全文

Salesforce中文网