项目
近三个月的活儿。每个卡片点进去是这个项目怎么从零跑起来、踩过哪些坑的复盘。
- 内容合规质检模型微调 个人
2026-04 ~ 2026-05
把 Qwen2.5-14B 微调成一个按规则做内容合规质检的模型。重点不在跑通训练,而在于看穿那些漂亮但会骗人的指标。
→ 识破了 loss=0.0137 的假象和 93.6% 准确率的水分,定位到训练/推理分布错位的根因
- Qwen2.5-14B
- LoRA
- DeepSpeed ZeRO-2
- RTX 4090
- vLLM
- 语音日历 比赛
2026-05
一句话记日程的语音日历。Azure 语音转文字 + 中文时间解析 + 冲突检测,端到端把口语转成结构化日程。
→ 三天内完成全部计划 PR,96 个单元测试全绿,端到端可演示
- FastAPI
- Azure Speech
- DeepSeek
- SQLAlchemy
- Docker
- pytest
- 房产领域 RAG 知识库 面试作品
2026-05
一个房产领域的检索增强问答系统。混合检索加重排,配一套自建评测集——这套 Eval 体系是大多数 RAG demo 不会做、却最该做的部分。
→ BM25+向量+RRF+重排的完整混合检索,配 30 条自建评测集;内存受限下从本地模型切到 API embedding
- RAG
- Qdrant
- BM25
- bge-reranker
- Qwen Embedding
- FastAPI
- 多平台内容发布工具 比赛
2026-05
一份内容,一键适配到多个平台。AI 起草加多平台改写,把同一篇稿子自动调成每个平台的调性与格式。
→ 用免费中转模型起草、付费模型只做润色,把 AI 成本压到约 0.01 元一次
- FastAPI
- SQLite
- DeepSeek
- Playwright
- Docker
- AI 代码审查工具 比赛
2026-06
拉一个真实 PR,自动审出问题。核心不是能不能报问题,而是不乱报——用两段式模型路由控制误报,对干净代码不硬挑刺。
→ 两段式模型路由 + 高危交叉验证,对一个正确的已合并 PR 实测 0 误报
- FastAPI
- DeepSeek
- Azure GPT-4.1-mini
- React
- Docker
- 就业市场撮合器 比赛
2026-05
不优化求职流程,而是重构求职市场结构。用 LLM 模拟一个完整的人才市场,让 AI 在应届生之间互相撮合。
→ 用 200 个 AI 应届生 × 50 家公司 × 1000 次撮合循环,跑出一个可视化的人才市场沙盘
- Multi-Agent
- LLM
- 全栈
- 数据可视化
- 政务工单智能处理流水线 面试作品
2026-05
把一批杂乱的工单文本,自动拆分事项、抽取要素、四级分类、识别群诉。重点是把通用性做进架构,而不是堆三条冗余流水线。
→ 可插拔 Strategy 架构 + 群诉双路召回 + 跨厂商交叉验证,300 条全量真实跑通
- Strategy模式
- faiss
- 智谱 embedding-3
- DeepSeek
- GLM-4.6
-
2026-06
用 QLoRA 微调 Qwen2-VL-2B,让它对驾驶场景图输出结构化的「该怎么开 + 为什么」。一个 50 条样本的迷你复现,验证数据生成到 VLM 微调到可解释决策整条路线。
→ QLoRA 微调后 loss 2.087→1.428(↓31%),可训练参数仅占 0.83%,7.28GB 显存跑通
- Qwen2-VL-2B
- QLoRA
- ms-swift
- Azure GPT-4.1-mini
- RTX 4090