跳到主要内容

OCR 能力介绍

微语客服系统支持 OCR(Optical Character Recognition,光学字符识别)能力,可将图片、截图、聊天图片和 PDF 中的文字内容快速提取为可编辑文本,用于客服辅助、知识整理、工单录入、质检分析以及后续 AI 自动处理等场景。

一、OCR 可以解决什么问题

在客服场景中,客户经常会发送截图、订单图片、支付凭证、物流页面、系统报错截图等内容。传统做法需要客服人工阅读并手动录入关键信息,效率较低,也容易遗漏。

接入 OCR 后,微语可以帮助企业实现:

  • 自动提取客户截图中的文字信息
  • 自动识别聊天中发送的图片文本
  • 快速复制识别结果,用于回复、建单、检索和存档
  • 为后续 AI 分析、知识库沉淀、工单结构化处理提供文本基础

二、微语已支持的 OCR 能力

当前版本已支持以下 OCR 相关能力:

1. 管理后台 OCR 测试与记录

当前后台测试能力支持:

  • 上传图片或 PDF 后直接执行 OCR
  • 支持常规图片文字提取
  • 支持手写文字识别
  • 支持仅提取文字内容,也支持保留文字位置信息
  • 支持使用阿里云 Qwen-OCR 官方模型进行识别

下图为管理后台“文字提取测试”界面示例:

管理后台文字提取测试界面

下图为管理后台“图像理解测试”界面示例:

管理后台图像理解测试界面

同时,OCR 测试记录会同步保存到 OcrEntity 表中,方便后续查询、审计与运维排查。

2. 客服工作台图片一键识别

在客服工作台中,客服可对聊天中的图片消息使用右键菜单“提取图片文字”,直接执行 OCR 提取图片中的文字内容。

下图为客服端右键菜单中的“提取图片文字”入口示例:

客服端右键菜单中的提取图片文字入口

适用于以下典型场景:

  • 客户发送订单截图,快速提取订单号
  • 客户发送报错页面,快速提取报错信息
  • 客户发送聊天截图、付款截图、物流截图,快速获取可复制文本

识别后的内容会回写到图片消息中,可直接用于复制、回复客户、转工单或进入后续业务流程。

3. 当前能力范围

根据当前版本能力,微语 OCR 具备以下特点:

  • 支持图片文字提取
  • 支持 PDF 文字提取
  • 支持聊天图片中的文字识别
  • 支持识别结果回写到图片消息中,方便客服直接查看和复制
  • OCR 是否可用,主要取决于管理员是否已完成服务端配置

三、面向运维人员的 OCR 配置说明

这一节主要面向部署、交付和运维人员,用于说明 OCR 在实际环境中如何启用、如何核对,以及排障时应该优先看什么。

1. 启用前提

就当前版本而言,OCR 的核心启用条件是服务端已经配置好 DashScope 的 API Key。

运维侧需要重点确认:

  • 已申请可用的 DashScope API Key
  • 运行环境能够访问 DashScope 服务
  • 相关 AI 能力开关已经启用
  • 修改配置后已重启应用服务

如果以上条件未满足,管理后台 OCR 测试和客服工作台中的“提取图片文字”都无法正常使用。

2. 源码部署需要关注的配置

如果你是通过源码方式部署微语,当前 OCR 相关配置主要集中在 AI 配置文件中。

根据当前项目默认配置,运维需要重点确认以下项目:

  • spring.ai.dashscope.enabled=true
  • spring.ai.dashscope.base-url=https://dashscope.aliyuncs.com
  • spring.ai.dashscope.api-key=...
  • spring.ai.dashscope.image.enabled=true
  • spring.ai.model.vision=dashscope

其中最关键的是 spring.ai.dashscope.api-key。如果这个值没有正确配置,OCR 无法正常工作。

3. Docker 部署需要关注的配置

如果你是通过 Docker Compose 部署,当前容器环境变量中需要重点确认以下项目:

  • SPRING_AI_DASHSCOPE_ENABLED
  • SPRING_AI_DASHSCOPE_BASE_URL
  • SPRING_AI_DASHSCOPE_API_KEY
  • SPRING_AI_DASHSCOPE_IMAGE_ENABLED

当前示例编排文件中,DashScope 默认是关闭状态:

  • SPRING_AI_DASHSCOPE_ENABLED: "false"
  • SPRING_AI_DASHSCOPE_IMAGE_ENABLED: "false"

这意味着如果直接使用默认编排文件而没有调整,OCR 功能通常不会真正启用。

对于 Docker 部署,建议至少调整为:

  • 启用 DashScope 能力
  • 配置有效的 DashScope API Key
  • 启用图像能力

同时建议确认服务器能够访问 DashScope 服务,否则即使参数填写正确,也可能因为网络原因导致 OCR 调用失败。

4. 推荐上线步骤

建议按以下顺序启用:

  1. 先完成 DashScope API Key 配置
  2. 再确认 DashScope 相关能力开关已经启用
  3. 重启系统相关服务,使新配置生效
  4. 在管理后台进入 OCR 测试页面,上传图片验证是否识别成功
  5. 验证通过后,再让客服在客服工作台中使用“提取图片文字”功能

5. 运维上线前检查清单

在把 OCR 交付给业务团队之前,建议按下面的顺序检查:

  1. 已申请可用的 DashScope API Key
  2. 已将 API Key 配入当前运行环境
  3. 已确认 DashScope 能力开关处于启用状态
  4. 已重启相关应用服务,使新配置生效
  5. 已在管理后台使用一张图片完成 OCR 测试
  6. 已在客服工作台中验证右键“提取图片文字”可以正常返回结果

6. 运维排障建议

如果业务方反馈 OCR 无法使用,建议优先按下面顺序排查:

  1. 先确认 DashScope API Key 是否已配置
  2. 再确认 DashScope 相关开关是否已经启用
  3. 再确认服务器网络是否可以访问 DashScope 服务
  4. 最后再检查上传图片地址、文件格式和图片内容本身

四、未配置或未启用时会发生什么

如果服务端没有完成 DashScope API Key 配置:

  • 管理后台 OCR 测试会执行失败
  • 客服工作台中的“提取图片文字”无法正常识别
  • 前端会给出明确提示,提醒管理员先完成 OCR 配置

客服在工作台中点击“提取图片文字”时,会看到如下提示:

OCR 服务未配置,请联系管理员设置 DASHSCOPE_API_KEY 或 spring.ai.dashscope.api-key

这意味着:如果菜单能看到,但点击后无法识别,通常优先检查系统配置,而不是先怀疑图片本身有问题。

五、典型应用场景

1. 客户服务场景

  • 识别客户上传的故障截图
  • 提取账号、订单号、手机号、收货信息等关键字段
  • 辅助客服快速判断问题并给出处理建议

2. 工单与质检场景

  • 将截图内容转成文本后写入工单备注
  • 用于售后处理过程留痕
  • 为后续质检、统计和检索提供结构化基础

3. AI 协同场景

  • 将图片内容转成文本后交给大模型理解
  • 结合机器人、知识库、工作流继续自动处理
  • 为自动分类、自动摘要、自动回复提供输入数据

六、能力价值

微语 OCR 能力的核心价值在于:

  • 降低客服人工录入成本
  • 提升截图类问题处理效率
  • 减少因人工抄录造成的信息错误
  • 为 AI 自动化处理打通图片到文本的第一步

七、推荐使用方式

对于企业用户,建议按照以下方式使用 OCR:

  • 管理员先在后台完成 OCR 模型测试与效果验证
  • 客服在日常接待中,直接对聊天图片执行 OCR
  • 将识别文本结合知识库、工单、机器人能力做进一步自动化处理

八、相关资源

九、总结

微语已经具备面向客服业务的 OCR 基础能力,既支持后台测试与记录沉淀,也支持客服工作台对图片消息进行一键文字提取。对于非技术使用者,只需要理解两点:第一,OCR 需要管理员提前完成服务配置;第二,配置完成后,客服即可在日常接待中直接使用这项能力提升处理效率。

这页文档对您有帮助吗?