政务工单智能处理流水线

一份大模型算法岗的笔试题：给一批政务工单文本，做事项拆分、四要素抽取、四级分类，还要识别”群诉”（同一问题被很多人反复投诉）。题目反复强调一个词——通用性。我理解这道题考的不是你能不能把活干完，而是你怎么把”通用”做进架构里。

把”多解”做成架构，而不是堆工作量

题目里有一问要求”做成多解题”。直觉做法是跑三条冗余流水线，但那是堆工作量，不是通用性。

我的解法是：每个子任务设计成可插拔的 Strategy，规则、向量、LLM 三类方法各自实现一个接口，思路文档里逐个对比权衡、说明默认选哪个、为什么。代码里至少给一个子任务（群诉）保留两套可切换实现。这样”多解”体现在架构抽象加文档对比上，而不是把同一件事做三遍——这本身就是题目要的通用性。

整条流水线是：

加载(列名自适应) → 预处理(剥样板) → 事项拆分(三档策略对比选默认)
→ 四要素抽取 → 四级分类(国标锚定+数据涌现的冻结树)
→ 群诉识别(点位分块 ∪ faiss向量召回, 双路保recall, LLM裁决)
→ 跨厂商交叉验证 → 导出

群诉识别：双路保召回

群诉的难点在召回。脱敏把工单里的”区名、门牌号”抹掉了，如果纯按点位 key 分块，会漏掉”地标也被替换”的同点位工单（比如同一个地方被写成两种说法）。所以我没有只靠分块，而是双路：

点位分块保精确率（precision）；
faiss 向量召回扫一遍保召回率（recall）；
两路取并集，再交给 LLM 做最终裁决。

分块负责”稳准”，向量负责”不漏”，各补对方的短板。

把”多解”做成架构，而不是堆工作量

群诉识别：双路保召回

可插拔的 embedding，和一次设计验证

跨厂商交叉验证

规模化：算法岗的硬加分

小结