从 SkillForge 看微语下一步:面向企业客服的自进化 Agent Skills
最近读到一篇很值得做企业客服产品的人认真看的论文:SkillForge: Forging Domain-Specific, Self-Evolving Agent Skills in Cloud Technical Support。它讨论的不是泛泛的“大模型更强了”,而是一个更落地的问题:当 Agent 真正进入企业技术支持、客服、工单、诊断这些高要求场景后,如何持续把“技能”做对、做稳、做深。
这篇论文给出的答案很直接:不要只盯着模型本身,而要把 Agent Skill 当成一个可版本化、可诊断、 可优化的资产,围绕它建立“创建 - 执行 - 评估 - 诊断 - 优化”的闭环。
对微语来说,这个方向非常有价值。因为微语本身已经具备多模型接入、知识库检索、机器人路由、工作流配置、人工接管这些基础能力,下一步真正拉开差距的,不会只是“接了多少模型”,而是谁能先把客服机器人做成一个会自我沉淀、会利用失败持续进化的系统。
这篇论文到底解决了什么问题
SkillForge 聚焦的是企业级云技术支持场景,但它的核心矛盾和客服系统高度相似。
论文认为,企业 Agent 往往会遇到两个长期问题:
- 初始技能写得不够贴业务。通用的 Skill Creator 不理解企业内部知识、历史工单、工具链和处理流程,所以生成出来的技能容易空泛。
- 技能上线后不会真正成长。线上每天都会积累失败样本,但很多系统并没有把这些失败系统地追溯到技能缺陷,再回写到技能定义里。
这也是很多 AI 客服项目“演示很好看,生产越跑越虚”的根源。模型能力也许够强,但真正约束回答质量的,往往是领域知识、澄清策略、工具调用方式、回复风格,以及这些能力有没有随着线上反馈不断修正。
SkillForge 的核心方法
论文把 Agent Skill 当成一个可进化的软件资产。它的 核心流程可以概括为五步。
1. 用领域上下文生成初始技能
不是拿一个通用模板直接写 SKILL.md,而是先从三类材料中抽取上下文:
- 历史工单
- 技术文档或知识库
- 人工专家常用工具与解决流程
然后再生成更贴近业务的初始技能。论文把这一层叫做 Domain-Contextualized Skill Creator。
2. 在线执行并持续收集坏样本
Agent 在真实任务中使用当前版本技能执行。只要发现输出与专家参考答案不一致,或者人工没有采用,就把这个 case 标记为 bad case。
这一步非常关键。因为自进化的起点不是“继续调 prompt”,而是先持续稳定地定义和收集失败。
3. 对失败做多维归因
SkillForge 不是简单地把失败归因为“模型答错了”,而是拆成四个维度去分析:
- Knowledge:知识缺失、知识错误、知识冲突
- Tool:工具没调、参数错、结果理解错
- Clarification:该追问没追问、不该追问却追问、追问方向偏了
- Style: 语气生硬、冗长、过冷、不符合客服场景
这一步的价值在于,它把“坏回答”变成了结构化缺陷,而不是一句抽象的“效果不好”。
4. 把失败映射回技能定义
论文里的 Skill Diagnostician 会读取坏样本聚合报告和当前 SKILL.md,把问题具体定位到技能内容本身。
例如:
- 某类 FAQ 总是漏关键前置条件,说明故障排查步骤不完整
- 某类工单总是少调一个内部工具,说明工具调用规则没写清楚
- 某类场景下回复太机械,说明风格要求或优先级不明确
这一步把线上效果问题,转成了“应该修改技能的哪一段”。
5. 只做最小必要修改,生成下一版技能
Skill Optimizer 根据诊断报告修改 SKILL.md 和 references,生成新版本技能,然后进入下一轮执行。
论文特别强调两点:
- 尽量只做最小修改,避免破坏已有正确行为
- 整个技能资产要可追踪、可版本化、可回滚
这其实已经非常接近现代软件工程思路,而不只是提示词工程。
为什么这件事对微语尤其重要
微语不是一个单点聊天机器人,而是一个同时覆盖访客端、客服端、知识库、工单、工作流、音视频和企业接入场景的客服系统。系统越复杂,AI 能力越不能只靠一个“大模型回答接口”来支撑。
从当前代码能力看,微语已经具备几块很重要的基础。
1. 已有多模型与多提供商接入能力
在模型提供商配置里,微语已经支持 OpenAI、Anthropic、Gemini、DeepSeek、通义、OpenRouter、Dify、n8n、Ragflow 等多个供应商。这意味着微语已经具备“技能运行时可切换模型底座”的基础,不需要从零开始设计模型抽象。
2. 已有知识库检索与 LLM 拼接链路
当前机器人回答链路已经支持知识库搜索结果聚合,并把 FAQ 检索结果转成上下文交给 LLM。也就是说,论文里“Domain Context”最核心的一块,微语并不缺,只是今天它主要还是停留在“回答时注入知识”,还没有进一步沉淀成版本化的技能资产。
