從 SkillForge 看微語下一步:面向企業客服的自進化 Agent Skills
最近讀到一篇很值得做企業客服產品的人認真看的論文:SkillForge: Forging Domain-Specific, Self-Evolving Agent Skills in Cloud Technical Support。它討論的不是泛泛的「大模型更強了」,而是一個更落地的問題:當 Agent 真正進入企業技術支援、客服、工單、診斷這些高要求場景後,如何持續把「技能」做對、做穩、做深。
這篇論文給出的答案很直接:不要只盯著模型本身,而要把 Agent Skill 當成一個可版本化 、可診斷、可優化的資產,圍繞它建立「建立 - 執行 - 評估 - 診斷 - 優化」的閉環。
對微語來說,這個方向非常有價值。因為微語本身已經具備多模型接入、知識庫檢索、機器人路由、工作流配置、人工接管這些基礎能力,下一步真正拉開差距的,不會只是「接了多少模型」,而是誰能先把客服機器人做成一個會自我沉澱、會利用失敗持續進化的系統。
這篇論文到底解決了什麼問題
SkillForge 聚焦的是企業級雲端技術支援場景,但它的核心矛盾和客服系統高度相似。
論文認為,企業 Agent 往往會遇到兩個長期問題:
- 初始技能寫得不夠貼近業務。通用的 Skill Creator 不理解企業內部知識、歷史工單、工具鏈和處理流程,所以生成出來的技能容易空泛。
- 技能上線後不會真正成長。線上每天都會累積失敗樣本,但很多系統並沒有把這些失敗系統性地追溯到技能缺陷,再回寫到技能定義裡。
這也是很多 AI 客服專案「展示很好看,生產越跑越虛」的根源。模型能力也許夠強,但真正約束回答品質的,往往是領域知識、澄清策略、工具調用方式、回覆風格,以及這些能力有沒有隨著線上回饋持續修正。
SkillForge 的核心方法
論文把 Agent Skill 當成一個可進化 的軟體資產。它的核心流程可以概括為五步。
1. 用領域上下文生成初始技能
不是拿一個通用模板直接寫 SKILL.md,而是先從三類材料中抽取上下文:
- 歷史工單
- 技術文件或知識庫
- 人工專家常用工具與解決流程
然後再生成更貼近業務的初始技能。論文把這一層叫做 Domain-Contextualized Skill Creator。
2. 在線執行並持續收集壞樣本
Agent 在真實任務中使用當前版本技能執行。只要發現輸出與專家參考答案不一致,或者人工沒有採用,就把這個 case 標記為 bad case。
這一步非常關鍵。因為自進化的起點不是「繼續調 prompt」,而是先持續穩定地定義和收集失敗。
3. 對失敗做多維歸因
SkillForge 不是簡單地把失敗歸因為「模型答錯了」,而是拆成四個維度去分析:
- Knowledge:知識缺失、知識錯誤、知識衝突
- Tool:工具沒調、參數錯、結果理解錯
- Clarification:該追問沒追問、不該追問卻追問、追問方向 偏了
- Style:語氣生硬、冗長、過冷、不符合客服場景
這一步的價值在於,它把「壞回答」變成了結構化缺陷,而不是一句抽象的「效果不好」。
4. 把失敗映射回技能定義
論文裡的 Skill Diagnostician 會讀取壞樣本聚合報告和當前 SKILL.md,把問題具體定位到技能內容本身。
例如:
- 某類 FAQ 總是漏關鍵前置條件,說明故障排查步驟不完整
- 某類工單總是少調一個內部工具,說明工具調用規則沒寫清楚
- 某類場景下回覆太機械,說明風格要求或優先級不明確
這一步把線上效果問題,轉成了「應該修改技能的哪一段」。
5. 只做最小必要修改,生成下一版技能
Skill Optimizer 根據診斷報告修改 SKILL.md 和 references,生成新版本技能,然後進入下一輪執行。
論文特別強調兩點:
- 盡量只做最小修改,避免破壞已有正確行為
- 整個技能資產要可追蹤、可版本化、可回滾
這其實已經非常接近現代軟體工程思路,而不只是提示詞工程。
為什麼這件事對微語尤其重要
微語不是一個單點聊天機器人,而是一個同時覆蓋訪客端、客服端、知識庫、工單、工作流、音視訊和企業接入場景的客服系統。系統越複雜,AI 能力越不能只靠一個「大模型回答介面」來支撐。
從目前程式碼能力看,微語已經具備幾塊很重要的基礎。
1. 已有多模型與多供應商接入能力
在模型供應商配置裡,微語已經支援 OpenAI、Anthropic、Gemini、DeepSeek、通義、OpenRouter、Dify、n8n、Ragflow 等多個供應商。這意味著微語已經具備「技能運行時可切換模型底座」的基礎,不需要從零開始設計模型抽象。
2. 已有知識庫檢索與 LLM 拼接鏈路
目前機器人回答鏈路已經支援知識庫搜尋結果聚合,並把 FAQ 檢索結果轉成上下文交給 LLM。也就是說,論文裡「Domain Context」最核心的一塊,微語並不缺,只是今天它主要還是停留在「回答時注入知識」,還沒有進一步沉澱成版本化的技能資產。
3. 已有機器人路由與人工 兜底機制
工作組側已經具備「是否轉機器人」「離線時是否優先備選人工/備選工作組」「強制轉人工」等路由邏輯。這意味著微語天然適合做論文裡的人機協同模式,而不是把 Agent 直接放到無人監管的全自動鏈路裡。
4. 已有工作流和服務設定入口
服務設定裡已經能看到 workflow、faqKbUid、inputAssociation、showFaqs 等配置項。說明微語不是沒有編排入口,而是下一步可以把「技能」提升為與 workflow、knowledge base 並列的正式配置物件。
5. 已有回饋實體雛形,但還不夠厚
訊息回饋實體目前已經存在,但欄位和處理鏈路還比較薄。它很適合作為 SkillForge 式閉環的起點,但距離「結構化失敗記錄 + 自動診斷 + 自動優化」還有明顯距離。
結合微語現狀,下一步最值得做的升級方向
如果把這篇論文轉成微語的產品與架構路線,我認為最值得優先做的是下面五件事。
一,把技能從隱式 prompt 提升為顯式資產
今天很多客服機器人系統雖然也有「提示詞」,但它往往分散在機器人設定、工作組設定、知識庫、FAQ、預設回覆等多個地方。長期看,這會導致能力難以沉澱。
更合適的做法是把 Skill 定義成一個一等公民物件,至少包含這些部分:
- 指令層:適用場景、目標、邊界、澄清策略、回覆風格
- 知識層:FAQ、文件切片、術語、示例工單、常見故障樹
- 工具層:允許調用哪些工具、何時調用、輸入輸出約束
- 流程層:不同場景的處理順序、升級條件、轉人工條件
- 評估層:成功定義、失敗分類、人工回饋映射規則
這樣做之後,微語裡的 robot、workgroup、assistant、workflow 才能真正共享和複用同一套技能資產。
二,把失敗日誌升級成結構化 Failure Record
如果沒有結構化失敗記錄,自進化就無從談 起。微語下一步應該優先把以下訊號統一沉澱下來:
- 使用者是否繼續追問同一問題
- 使用者是否觸發「轉人工」
- 客服是否重寫了 AI 建議
- AI 回覆是否被坐席採納、部分採納或放棄
- 使用者是否點踩、投訴、低滿意度
- 工具調用是否失敗、超時或未命中
然後按照論文的四個主維度去歸因:Knowledge、Tool、Clarification、Style。這樣後面無論是做人工復盤、規則分析,還是做自動診斷,資料基礎才是統一的。
三,把知識庫升級成「技能知識庫」,而不只是 FAQ 檢索
微語現在已經有 FAQ、向量檢索、來源引用,這是好基礎。但論文提醒了一個很關鍵的點:企業 Agent 的知識不只是「文件內容」,還有「怎麼處理事情」的經驗。
所以更值得做的是把知識源分成兩類:
- 靜態知識:FAQ、產品文件、介面說明、制度規則
- 動態經驗:歷史工單中的高品質解決路徑、澄清話術、升級判斷、常用工具組合
如果只做靜態 RAG,系統會回答「知道的內容」;如果把優秀工單和處置路徑也納入技能參考,系統才更接近「像資深客服一樣處理問題」。
四,引入技能診斷器與技能優化器
這是論文最有啟發性的部分,也是微語現在最缺的一段。
微語完全可以在現有 AI 模組之上新增兩類背景任務:
- Skill Diagnostician:週期性讀取失敗樣本,輸出「哪些技能段落有問題」的診斷報告
- Skill Optimizer:在人工審核後,自動生成新的技能草案或 references 更新建議
注意這裡不一定要一步做到全自動上線。更現實的第一階段路徑是:
- 自動生成診斷報告
- 自動生成技能修訂草案
- 由營運、質檢或管理員審核
- 審核通過後發布新版本
這會比現在很多系統「人工看聊天紀錄,再手改 prompt」高效得多,也更可追蹤。
五,把技能營運做成後台可視化能力
如果技能只是寫在文件裡,企業最終用不起來。微語更適合把它做成後台裡的營運物件:
- 查看技能版本歷史
- 對比兩個技能版本差異
- 查看每個版本上線後的命中率、轉人工率、滿意度變化
- 支援按租戶、工作組、機器人做 A/B 測試
- 支援按行業導入行業技能模板
一旦走到這一步,微語的競爭力就不再只是「有機器人」,而是「有一套可持續營運的企業 Agent Skill 平台」。
一個更現實的微語落地順序
如果按照投入產出比來排優先級,我更建議分三期推進。
第一期:先把資料閉環打通
- 補全訊息回饋實體與失敗記錄結構
- 統一記錄 AI 建議、人工採納、轉人工、使用者追問、使用者評價
- 建立基礎失敗分類看板
第二期:把技能變成正式配置物件
- 在 robot settings、workgroup settings、agent settings 中引入 skill 配置
- 支援技能模板、技能版本、技能發布與回滾
- 將優秀 FAQ、歷史工單摘要、工作流節點說明沉澱到技能 references
第三期:引入半自動進化能力
- 定期跑技能診斷任務
- 自動生成優化建議與新版本草案
- 審核後灰度發布
- 對比上線前後的核心指標變化
這條路線最大的好處是,不要求一開始就相信「AI 自動改技能一定靠譜」。 它允許微語先把證據鏈、診斷鏈、審核鏈做好,再逐步把優化自動化程度提高。
SkillForge 給微語的真正啟發
這篇論文最有價值的地方,不是又提出了一個新框架名字,而是把一個常被忽視的問題講清楚了:企業 Agent 的核心資產,正在從「模型參數」轉向「技能系統」。
誰能把領域知識、工具規範、工作流、失敗回饋、人工經驗沉澱成可進化的技能,誰就更有機會把 AI 從「能聊天」做成「能穩定解決問題」。
微語已經具備了這條路線的多個基礎模組。下一步如果能把知識庫、機器人、工作流、訊息回饋、質檢和後台配置真正串成一個 SkillForge 式閉環,那麼微語做的就不再只是一個接入大模型的客服系統,而會更接近一個面向企業服務場景的自成長 Agent 平台。
