项目

近三个月的活儿。每个卡片点进去是这个项目怎么从零跑起来、踩过哪些坑的复盘。

内容合规质检模型微调个人

2026-04 ~ 2026-05

把 Qwen2.5-14B 微调成一个按规则做内容合规质检的模型。重点不在跑通训练，而在于看穿那些漂亮但会骗人的指标。

→ 识破了 loss=0.0137 的假象和 93.6% 准确率的水分，定位到训练/推理分布错位的根因
- Qwen2.5-14B
- LoRA
- DeepSpeed ZeRO-2
- RTX 4090
- vLLM
语音日历比赛

2026-05

一句话记日程的语音日历。Azure 语音转文字 + 中文时间解析 + 冲突检测，端到端把口语转成结构化日程。

→ 三天内完成全部计划 PR，96 个单元测试全绿，端到端可演示
- FastAPI
- Azure Speech
- DeepSeek
- SQLAlchemy
- Docker
- pytest
房产领域 RAG 知识库面试作品

2026-05

一个房产领域的检索增强问答系统。混合检索加重排，配一套自建评测集——这套 Eval 体系是大多数 RAG demo 不会做、却最该做的部分。

→ BM25+向量+RRF+重排的完整混合检索，配 30 条自建评测集；内存受限下从本地模型切到 API embedding
- RAG
- Qdrant
- BM25
- bge-reranker
- Qwen Embedding
- FastAPI
多平台内容发布工具比赛

2026-05

一份内容，一键适配到多个平台。AI 起草加多平台改写，把同一篇稿子自动调成每个平台的调性与格式。

→ 用免费中转模型起草、付费模型只做润色，把 AI 成本压到约 0.01 元一次
- FastAPI
- SQLite
- DeepSeek
- Playwright
- Docker
AI 代码审查工具比赛

2026-06

拉一个真实 PR，自动审出问题。核心不是能不能报问题，而是不乱报——用两段式模型路由控制误报，对干净代码不硬挑刺。

→ 两段式模型路由 + 高危交叉验证，对一个正确的已合并 PR 实测 0 误报
- FastAPI
- DeepSeek
- Azure GPT-4.1-mini
- React
- Docker
就业市场撮合器比赛

2026-05

不优化求职流程，而是重构求职市场结构。用 LLM 模拟一个完整的人才市场，让 AI 在应届生之间互相撮合。

→ 用 200 个 AI 应届生 × 50 家公司 × 1000 次撮合循环，跑出一个可视化的人才市场沙盘
- Multi-Agent
- LLM
- 全栈
- 数据可视化
政务工单智能处理流水线面试作品

2026-05

把一批杂乱的工单文本，自动拆分事项、抽取要素、四级分类、识别群诉。重点是把通用性做进架构，而不是堆三条冗余流水线。

→ 可插拔 Strategy 架构 + 群诉双路召回 + 跨厂商交叉验证，300 条全量真实跑通
- Strategy模式
- faiss
- 智谱 embedding-3
- DeepSeek
- GLM-4.6
DriveGPT4-Mini：可解释驾驶决策的 VLM 微调复现开源复现

2026-06

用 QLoRA 微调 Qwen2-VL-2B，让它对驾驶场景图输出结构化的「该怎么开 + 为什么」。一个 50 条样本的迷你复现，验证数据生成到 VLM 微调到可解释决策整条路线。

→ QLoRA 微调后 loss 2.087→1.428（↓31%），可训练参数仅占 0.83%，7.28GB 显存跑通
- Qwen2-VL-2B
- QLoRA
- ms-swift
- Azure GPT-4.1-mini
- RTX 4090