OCR 能力介绍

微语客服系统支持 OCR（Optical Character Recognition，光学字符识别）能力，可将图片、截图、聊天图片和 PDF 中的文字内容快速提取为可编辑文本，用于客服辅助、知识整理、工单录入、质检分析以及后续 AI 自动处理等场景。

一、OCR 可以解决什么问题

在客服场景中，客户经常会发送截图、订单图片、支付凭证、物流页面、系统报错截图等内容。传统做法需要客服人工阅读并手动录入关键信息，效率较低，也容易遗漏。

接入 OCR 后，微语可以帮助企业实现：

自动提取客户截图中的文字信息
自动识别聊天中发送的图片文本
快速复制识别结果，用于回复、建单、检索和存档
为后续 AI 分析、知识库沉淀、工单结构化处理提供文本基础

二、微语已支持的 OCR 能力

当前版本已支持以下 OCR 相关能力：

1. 管理后台 OCR 测试与记录

当前后台测试能力支持：

上传图片或 PDF 后直接执行 OCR
支持常规图片文字提取
支持手写文字识别
支持仅提取文字内容，也支持保留文字位置信息
支持使用阿里云 Qwen-OCR 官方模型进行识别

下图为管理后台“文字提取测试”界面示例：

管理后台文字提取测试界面

下图为管理后台“图像理解测试”界面示例：

管理后台图像理解测试界面

同时，OCR 测试记录会同步保存到 OcrEntity 表中，方便后续查询、审计与运维排查。

2. 客服工作台图片一键识别

在客服工作台中，客服可对聊天中的图片消息使用右键菜单“提取图片文字”，直接执行 OCR 提取图片中的文字内容。

下图为客服端右键菜单中的“提取图片文字”入口示例：

客服端右键菜单中的提取图片文字入口

适用于以下典型场景：

客户发送订单截图，快速提取订单号
客户发送报错页面，快速提取报错信息
客户发送聊天截图、付款截图、物流截图，快速获取可复制文本

识别后的内容会回写到图片消息中，可直接用于复制、回复客户、转工单或进入后续业务流程。

3. 当前能力范围

根据当前版本能力，微语 OCR 具备以下特点：

支持图片文字提取
支持 PDF 文字提取
支持聊天图片中的文字识别
支持识别结果回写到图片消息中，方便客服直接查看和复制
OCR 是否可用，主要取决于管理员是否已完成服务端配置

三、面向运维人员的 OCR 配置说明

这一节主要面向部署、交付和运维人员，用于说明 OCR 在实际环境中如何启用、如何核对，以及排障时应该优先看什么。

1. 启用前提

就当前版本而言，OCR 的核心启用条件是服务端已经配置好 DashScope 的 API Key。

运维侧需要重点确认：

已申请可用的 DashScope API Key
运行环境能够访问 DashScope 服务
相关 AI 能力开关已经启用
修改配置后已重启应用服务

如果以上条件未满足，管理后台 OCR 测试和客服工作台中的“提取图片文字”都无法正常使用。

2. 源码部署需要关注的配置

如果你是通过源码方式部署微语，当前 OCR 相关配置主要集中在 AI 配置文件中。

根据当前项目默认配置，运维需要重点确认以下项目：

spring.ai.dashscope.enabled=true
spring.ai.dashscope.base-url=https://dashscope.aliyuncs.com
spring.ai.dashscope.api-key=...
spring.ai.dashscope.image.enabled=true
spring.ai.model.vision=dashscope

其中最关键的是 spring.ai.dashscope.api-key。如果这个值没有正确配置，OCR 无法正常工作。

3. Docker 部署需要关注的配置

如果你是通过 Docker Compose 部署，当前容器环境变量中需要重点确认以下项目：

SPRING_AI_DASHSCOPE_ENABLED
SPRING_AI_DASHSCOPE_BASE_URL
SPRING_AI_DASHSCOPE_API_KEY
SPRING_AI_DASHSCOPE_IMAGE_ENABLED

当前示例编排文件中，DashScope 默认是关闭状态：

SPRING_AI_DASHSCOPE_ENABLED: "false"
SPRING_AI_DASHSCOPE_IMAGE_ENABLED: "false"

这意味着如果直接使用默认编排文件而没有调整，OCR 功能通常不会真正启用。

对于 Docker 部署，建议至少调整为：

启用 DashScope 能力
配置有效的 DashScope API Key
启用图像能力

同时建议确认服务器能够访问 DashScope 服务，否则即使参数填写正确，也可能因为网络原因导致 OCR 调用失败。

4. 推荐上线步骤

建议按以下顺序启用：

先完成 DashScope API Key 配置
再确认 DashScope 相关能力开关已经启用
重启系统相关服务，使新配置生效
在管理后台进入 OCR 测试页面，上传图片验证是否识别成功
验证通过后，再让客服在客服工作台中使用“提取图片文字”功能

5. 运维上线前检查清单

在把 OCR 交付给业务团队之前，建议按下面的顺序检查：

已申请可用的 DashScope API Key
已将 API Key 配入当前运行环境
已确认 DashScope 能力开关处于启用状态
已重启相关应用服务，使新配置生效
已在管理后台使用一张图片完成 OCR 测试
已在客服工作台中验证右键“提取图片文字”可以正常返回结果

6. 运维排障建议

如果业务方反馈 OCR 无法使用，建议优先按下面顺序排查：

先确认 DashScope API Key 是否已配置
再确认 DashScope 相关开关是否已经启用
再确认服务器网络是否可以访问 DashScope 服务
最后再检查上传图片地址、文件格式和图片内容本身

四、未配置或未启用时会发生什么

如果服务端没有完成 DashScope API Key 配置：

管理后台 OCR 测试会执行失败
客服工作台中的“提取图片文字”无法正常识别
前端会给出明确提示，提醒管理员先完成 OCR 配置

客服在工作台中点击“提取图片文字”时，会看到如下提示：

OCR 服务未配置，请联系管理员设置 DASHSCOPE_API_KEY 或 spring.ai.dashscope.api-key

这意味着：如果菜单能看到，但点击后无法识别，通常优先检查系统配置，而不是先怀疑图片本身有问题。

五、典型应用场景

1. 客户服务场景

识别客户上传的故障截图
提取账号、订单号、手机号、收货信息等关键字段
辅助客服快速判断问题并给出处理建议

2. 工单与质检场景

将截图内容转成文本后写入工单备注
用于售后处理过程留痕
为后续质检、统计和检索提供结构化基础

3. AI 协同场景

将图片内容转成文本后交给大模型理解
结合机器人、知识库、工作流继续自动处理
为自动分类、自动摘要、自动回复提供输入数据

六、能力价值

微语 OCR 能力的核心价值在于：

降低客服人工录入成本
提升截图类问题处理效率
减少因人工抄录造成的信息错误
为 AI 自动化处理打通图片到文本的第一步

七、推荐使用方式

对于企业用户，建议按照以下方式使用 OCR：

管理员先在后台完成 OCR 模型测试与效果验证
客服在日常接待中，直接对聊天图片执行 OCR
将识别文本结合知识库、工单、机器人能力做进一步自动化处理

八、相关资源

九、总结

微语已经具备面向客服业务的 OCR 基础能力，既支持后台测试与记录沉淀，也支持客服工作台对图片消息进行一键文字提取。对于非技术使用者，只需要理解两点：第一，OCR 需要管理员提前完成服务配置；第二，配置完成后，客服即可在日常接待中直接使用这项能力提升处理效率。

一、OCR 可以解决什么问题​

二、微语已支持的 OCR 能力​

1. 管理后台 OCR 测试与记录​

2. 客服工作台图片一键识别​

3. 当前能力范围​

三、面向运维人员的 OCR 配置说明​

1. 启用前提​

2. 源码部署需要关注的配置​

3. Docker 部署需要关注的配置​

4. 推荐上线步骤​

5. 运维上线前检查清单​

6. 运维排障建议​

四、未配置或未启用时会发生什么​

五、典型应用场景​

1. 客户服务场景​

2. 工单与质检场景​

3. AI 协同场景​

六、能力价值​

七、推荐使用方式​

八、相关资源​

九、总结​