OCR 能力介绍
微语客服系统支持 OCR(Optical Character Recognition,光学字符识别)能力,可将图片、截图、聊天图片和 PDF 中的文字内容快速提取为可编辑文本,用于客服辅助、知识整理、工单录入、质检分析以及后续 AI 自动处理等场景。
一、OCR 可以解决什么问题
在客服场景中,客户经常会发送截图、订单图片、支付凭证、物流页面、系统报错截图等内容。传统做法需要客服人工阅读并手动录入关键信息,效率较低,也容易遗漏。
接入 OCR 后,微语可以帮 助企业实现:
- 自动提取客户截图中的文字信息
- 自动识别聊天中发送的图片文本
- 快速复制识别结果,用于回复、建单、检索和存档
- 为后续 AI 分析、知识库沉淀、工单结构化处理提供文本基础
二、微语已支持的 OCR 能力
当前版本已支持以下 OCR 相关能力:
1. 管理后台 OCR 测试与记录
当前后台测试能力支持:
- 上传图片或 PDF 后直接执行 OCR
- 支持常规图片文字提取
- 支持手写文字识别
- 支持仅提取文字内容,也支持保留文字位置信息
- 支持使用阿里云 Qwen-OCR 官方模型进行识别
下图为管理后台“文字提取测试”界面示例:

下图为管理后台“图像理解测试”界面示例:

同时,OCR 测试记录会同步保存到 OcrEntity 表中,方便后续查询、审计与运维排查。
2. 客服工作台图片一键识别
在客服工作台中,客服可对聊天中的图片消息使用右键菜单“提取图片文字”,直接执行 OCR 提取图片中的文字内容。
下图为客服端右键菜单中的“提取图片文字”入口示例:

适用于以下典型场景:
- 客户发送订单截图,快速提取订单号
- 客户发送报错页面,快速提取报错信息
- 客户发送聊天截图、付款截图、物流截图,快速获取可复制文本
识别后的内容会回写到图片消息中,可直接用于复制、回复客户、转工单或进入后续业务流程。
3. 当前能力范围
根据当前版本能力,微语 OCR 具备以下特点:
- 支持图片文字提取
- 支持 PDF 文字提取
- 支持聊天图片中的文字识别
- 支持识别结果回写到图片消息中,方便客服直接查看和复制
- OCR 是否可用,主要取决于管理员是否已完成服务端配置
三、面向运维人员的 OCR 配置说明
这一节主要面向部署、交付和运维人员,用于说明 OCR 在实际环境中如何启用、如何核对,以及排障时应该优先看什么。
1. 启用前提
就当前版本而言,OCR 的核心启用条件是服务端已经配置好 DashScope 的 API Key。
运维侧需要重点确认:
- 已申请可用的 DashScope API Key
- 运行环境能够访问 DashScope 服务
- 相关 AI 能力开关已经启用
- 修改配置后已重启应用服务
如果以上条件未满足,管理后台 OCR 测试和客服工作台中的“提取图片文字”都无法正常使用。
2. 源码部署需要关注的配置
如果你是通过源码方式部署微语,当前 OCR 相关配置主要集中在 AI 配置文件中。
根据当前项目默认配置,运维需要重点确认以下项目:
spring.ai.dashscope.enabled=truespring.ai.dashscope.base-url=https://dashscope.aliyuncs.comspring.ai.dashscope.api-key=...spring.ai.dashscope.image.enabled=truespring.ai.model.vision=dashscope
其中最关键的是 spring.ai.dashscope.api-key。如果这个值没有正确配置,OCR 无法正常工作。
3. Docker 部署需要关注的配置
如果你是通过 Docker Compose 部署,当前容器环境变量中需要重点确认以下项目:
SPRING_AI_DASHSCOPE_ENABLEDSPRING_AI_DASHSCOPE_BASE_URLSPRING_AI_DASHSCOPE_API_KEYSPRING_AI_DASHSCOPE_IMAGE_ENABLED
当前示例编排文件中,DashScope 默认是关闭状态:
SPRING_AI_DASHSCOPE_ENABLED: "false"SPRING_AI_DASHSCOPE_IMAGE_ENABLED: "false"
这意味着如果直接使用默认编排文件而没有调整,OCR 功能通常不会真正启用。
对于 Docker 部署,建议至少调整为:
- 启用 DashScope 能力
- 配置有效的 DashScope API Key
- 启用图像能力
同时建议确认服务器能够访问 DashScope 服务,否则即使参数填写正确,也可能因为网络原因导致 OCR 调用失败。
4. 推荐上线步骤
建议按以下顺序启用:
- 先完成 DashScope API Key 配置
- 再确认 DashScope 相关能力开关已经启用
- 重启系统相关服务,使新配置生效
- 在管理后台进入 OCR 测试页面,上传图片验证是否识别成功
- 验证通过后,再让客服在客服工作台中使用“提取图片文字”功能
5. 运 维上线前检查清单
在把 OCR 交付给业务团队之前,建议按下面的顺序检查:
- 已申请可用的 DashScope API Key
- 已将 API Key 配入当前运行环境
- 已确认 DashScope 能力开关处于启用状态
- 已重启相关应用服务,使新配置生效
- 已在管理后台使用一张图片完成 OCR 测试
- 已在客服工作台中验证右键“提取图片文字”可以正常返回结果
6. 运维排障建议
如果业务方反馈 OCR 无法使用,建议优先按下面顺序排查:
- 先确认 DashScope API Key 是否已配置
- 再确认 DashScope 相关开关是否已经启用
- 再确认服务器网络是否可以访问 DashScope 服务
- 最后再检查上传图片地址、文件格式和图片内容本身
四、未配置或未启用时会发生什么
如果服务端没有完成 DashScope API Key 配置:
- 管理后台 OCR 测试会执行失败
- 客服工作台中的“提取图片文字”无法正常识别
- 前端会给出明确提示,提醒管理员先完成 OCR 配置
客服在工作台中点击“提取图片文字”时,会看到如下提示:
OCR 服务未配置,请联系管理员设置 DASHSCOPE_API_KEY 或 spring.ai.dashscope.api-key
这意味着:如果菜单能看到,但点击后无法识别,通常优先检查系统配置,而不是先怀疑图片本身有问题。
五、典型应用场景
1. 客户服务场景
- 识别客户上传的故障截图
- 提取账号、订单号、手机号、收货信息等关键字段
- 辅助客服快速判断问题并给出处理建议
2. 工单与质检场景
- 将截图内容转成文本后写入工单备注
- 用于售后处理过程留痕
- 为后续质检、统计和检索提供结构化基础