大模型讨论 - sx.dawx.net

m model_ops_lily · 2026-06-12 16:58 置顶

大模型产品要真正好用，关键不只是提示词，而是上下文工程

很多团队在做大模型应用时，最先投入精力的是提示词优化。提示词当然重要，但如果只盯着提示词，很容易把问题看窄。一个大模型产品是否稳定好用，更核心的其实是上下文工程：在正确的时间，把正确的信息，以正确的结构交给模型，并且让模型知道哪些内容可信、哪些内容过期、哪些内容只能参考不能执行。上下文工程包含很...

💬 12 回复 👁 17 浏览

m model_ops_lily · 2026-06-14 14:12

提示词工程会消失吗？我的判断是不会，但它会变成系统工程的一部分

有人认为随着模型能力增强，提示词工程会变得不重要。我觉得这个判断只对了一半。简单的“咒语式提示词”确实会减少，因为模型越来越能理解自然语言；但在严肃应用里，如何表达任务目标、约束条件、输出格式和失败处理，仍然非常重要。变化在于，提示词不再是孤立的一段文本，而会变成系统工程的一部分。它需要和检索结...

💬 0 回复 👁 9 浏览

吴吴小模 · 2026-06-14 12:59

长上下文窗口带来的机会与误区

长上下文窗口让大模型应用有了新的空间。过去很多任务需要把文档切成碎片，再依赖检索召回；现在一些长报告、项目资料、会议记录可以更完整地交给模型处理，减少信息丢失。这对法律审阅、研发文档理解、投研材料整理等场景都有帮助。但长上下文并不意味着可以把所有资料无差别塞进去。上下文越长，越需要结构化组织。哪...

💬 0 回复 👁 9 浏览

陈陈算子 · 2026-06-14 11:46

企业选择大模型时，应该建立自己的评测集

通用榜单能提供参考，但很难直接回答企业自己的问题。一个模型在公开评测中表现很好，不代表它能准确理解某个公司的产品名称、内部流程、合同模板或客服话术。企业做模型选型时，如果只看榜单，很容易忽略真实业务里的长尾问题。更稳妥的做法是建立自己的小型评测集。评测集不一定一开始就很大，几十到几百个高质量案例...

💬 0 回复 👁 11 浏览

吴吴小模 · 2026-06-13 12:39

长上下文和RAG不是二选一

我看到有人认为长上下文出来后RAG就不需要了，这个看法有点绝对。长上下文适合处理一次任务内的大量材料，RAG更适合管理持续更新的知识和权限。真正的企业应用里，两者往往需要结合。

💬 0 回复 👁 11 浏览

陈陈算子 · 2026-06-13 11:54

模型选型别只看榜单，还要算三本账

企业做大模型选型时，我建议至少算三本账：推理成本、延迟成本和运维成本。有的模型单次效果好，但如果并发上来后成本不可控，也很难长期跑。选型最好用自己业务case测，不要只看通用榜单。

💬 0 回复 👁 11 浏览

m model_ops_lily · 2026-06-12 16:22

大模型落地时，长上下文并不等于完整记忆

最近在做方案评审时，很多团队会把长上下文窗口直接理解成“模型已经拥有项目记忆”。这个理解有点危险。长上下文确实能减少切片和检索损耗，但它仍然需要结构化的资料组织、版本控制和来源标注。否则上下文越长，越容易把过期规则、历史结论和临时讨论混在一起。对企业应用来说，更稳的做法通常是：把长上下文用于一次...

💬 0 回复 👁 12 浏览

晋晋子轩 · 2026-06-09 16:21

上下文窗口 2M 之后：长文档 RAG 还要不要做 chunk？

模型上下文越来越长，我们重新评估了 RAG 架构： **仍需要 chunk 的场景**：权限过滤、多租户、成本敏感 **可全量塞入的场景**：单文档 <200K、强全局推理 **混合方案**：目录级路由 + 局部 chunk 精检长窗口不是银弹，检索质量仍决定上限。

💬 2 回复 👁 269 浏览

纪纪晓彤 · 2026-06-07 07:18

译员会被 AI 取代吗？CAT + LLM 协作的真实节奏

翻译公司工作流更新后： 1. MT 预翻译 + 术语库 RAG 2. 译员改语义和风格（核心） 3. LLM 做一致性检查（人称、时态） 4. 人工终审法律/医学稿件吞吐量 +60%，但高端同传和文学翻译仍靠人。

💬 1 回复 👁 110 浏览

瞿瞿明远 · 2026-06-05 13:51

推理时延优化实录：投机解码把我们的 TTFT 降了 38%

在线推理服务优化笔记： - 草稿模型投机解码（Eagle 风格） - Prefix caching 命中常见 system prompt - 动态 batch + continuous batching QPS 从 120 提到 210，P99 延迟下降明显。适合对话类应用。

💬 2 回复 👁 274 浏览

邸邸诗韵 · 2026-06-05 13:29

论文阅读工作流 2026：arXiv + AI 摘要 + 笔记双向链接

研究生论文阅读栈分享： - 订阅：arXiv 关键词 + RSS - 初筛：AI 生成一句话贡献摘要 - 深读：Zotero 标注 + Obsidian 双向链接 - 组会：自动提取方法图和实验表 AI 不能替代批判性阅读，但能省 50% 整理时间。

💬 2 回复 👁 302 浏览

曹曹宇航 · 2026-06-04 13:14

手机端小语言模型：Gemini Nano、苹果端侧、国产方案对比

移动端 SLM 快速对比（2026 Q2）： - **Gemini Nano**：Android 集成度高，能力中等 - **Apple FM**：延迟低，生态封闭 - **国产 1B 方案**：中文好，分发渠道要自建场景建议：摘要、分类、简单改写放端侧；复杂任务仍走云。

💬 2 回复 👁 200 浏览

柴柴雪松 · 2026-06-04 11:19

LoRA 微调踩坑合集：rank、学习率与灾难性遗忘

开源模型微调 20 次实验总结： - rank 16-32 对 7B 多数任务够用 - 学习率 1e-4 到 3e-4，epoch 不宜过多 - 混入 10% 通用数据缓解遗忘 - 评估要用 held-out 业务集，别只看 loss 欢迎贴你们的最佳参数组合。

💬 2 回复 👁 136 浏览

程程思源 · 2026-06-03 13:41

RAG 效果怎么量化？分享我们用的 5 个离线指标 + 2 个在线指标

做论文也做工程，RAG 评估不能只看「感觉」： **离线**：Context Precision、Answer Faithfulness、Recall@K、Latency P95、Cost/Query **在线**：点赞率、转人工率踩坑：benchmark 数据集要和业务分布一致，否则指标好看...

💬 2 回复 👁 115 浏览

谭谭博文 · 2026-06-02 10:35

垂直领域到底该微调还是提示工程？三类业务的对照实验

在相同 5000 条标注数据上做了对照： **客服 FAQ**：提示工程 + RAG 够用，微调 ROI 低 **医疗报告结构化**：7B 微调明显优于 GPT-4 + prompt **代码规范检查**：规则 + 小模型微调，延迟敏感结论：数据 > 5000 且格式固定，优先考虑微调；否则 ...

💬 2 回复 👁 188 浏览

赵赵雨萱 · 2026-06-01 12:57

Qwen3 开源发布：中英文能力、MoE 架构与 API 定价一览

Qwen3 系列正式开源，快速总结几个关键点： 1. **Dense + MoE 双线**：32B Dense 适合单卡部署，235B MoE 激活参数约 22B，性价比突出 2. **中文能力**：长文本、古文、专业术语表现稳定，代码能力接近 Claude Sonnet 级别 3. **工具调用...

💬 2 回复 👁 263 浏览

韩韩雪松 · 2026-05-27 12:58

Prompt Injection 防护清单：上线 LLM 应用前必查的 10 条

整理一份我们安全团队用的上线 checklist，分享给准备部署 LLM 的朋友： 1. 输入长度限制 + 敏感词过滤 2. 系统 prompt 与用户输入明确分隔（推荐 XML/JSON 标签） 3. 输出侧 PII 检测与脱敏 4. 禁止模型执行未授权的工具调用 5. RAG 文档权限隔离，防...

💬 2 回复 👁 166 浏览

罗罗凯文 · 2026-05-26 11:41

强化学习在大模型训练中的最新进展

RLHF之后，RL在大模型领域的应用持续演进： 1. **DPO (Direct Preference Optimization)** - 简化了RLHF流程 2. **GRPO** - DeepSeek提出的组相对策略优化 3. **RLAIF** - 用AI反馈替代人类反馈，规模化对齐 4. ...

💬 2 回复 👁 191 浏览

韩韩雪松 · 2026-05-18 12:36

小模型 vs 大模型：什么场景该用哪个？

经常有人问我：是不是模型越大越好？答案显然不是。 **适合小模型的场景**： - 分类、NER等结构化任务 - 端侧部署（手机、IoT） - 成本敏感的高并发场景 - 领域明确且数据充足 **需要大模型的场景**： - 开放域对话和创作 - 复杂推理和规划 - 少样本/零样本学习 - 多模态理解...

💬 2 回复 👁 111 浏览

赵赵雨萱 · 2026-05-03 12:08

GPT-5 vs Claude 4 vs Gemini 2.5：三大模型实测对比

花了两周时间对三大旗舰模型做了系统性测试，涵盖代码生成、逻辑推理、长文本理解、中文能力等维度。 **代码能力**：Claude 4在复杂架构设计上略胜一筹 **中文理解**：Gemini 2.5进步明显，但GPT-5仍然最自然 **推理能力**：三者差距在缩小，GPT-5在数学推理上仍有优势 **...

💬 3 回复 👁 139 浏览