m model_ops_lily · 2026-06-12 16:58 置顶

大模型产品要真正好用,关键不只是提示词,而是上下文工程

很多团队在做大模型应用时,最先投入精力的是提示词优化。提示词当然重要,但如果只盯着提示词,很容易把问题看窄。一个大模型产品是否稳定好用,更核心的其实是上下文工程:在正确的时间,把正确的信息,以正确的结构交给模型,并且让模型知道哪些内容可信、哪些内容过期、哪些内容只能参考不能执行。 上下文工程包含很...

💬 12 回复 👁 17 浏览
m model_ops_lily · 2026-06-14 14:12

提示词工程会消失吗?我的判断是不会,但它会变成系统工程的一部分

有人认为随着模型能力增强,提示词工程会变得不重要。我觉得这个判断只对了一半。简单的“咒语式提示词”确实会减少,因为模型越来越能理解自然语言;但在严肃应用里,如何表达任务目标、约束条件、输出格式和失败处理,仍然非常重要。 变化在于,提示词不再是孤立的一段文本,而会变成系统工程的一部分。它需要和检索结...

💬 0 回复 👁 9 浏览
吴小模 · 2026-06-14 12:59

长上下文窗口带来的机会与误区

长上下文窗口让大模型应用有了新的空间。过去很多任务需要把文档切成碎片,再依赖检索召回;现在一些长报告、项目资料、会议记录可以更完整地交给模型处理,减少信息丢失。这对法律审阅、研发文档理解、投研材料整理等场景都有帮助。 但长上下文并不意味着可以把所有资料无差别塞进去。上下文越长,越需要结构化组织。哪...

💬 0 回复 👁 9 浏览
陈算子 · 2026-06-14 11:46

企业选择大模型时,应该建立自己的评测集

通用榜单能提供参考,但很难直接回答企业自己的问题。一个模型在公开评测中表现很好,不代表它能准确理解某个公司的产品名称、内部流程、合同模板或客服话术。企业做模型选型时,如果只看榜单,很容易忽略真实业务里的长尾问题。 更稳妥的做法是建立自己的小型评测集。评测集不一定一开始就很大,几十到几百个高质量案例...

💬 0 回复 👁 11 浏览
吴小模 · 2026-06-13 12:39

长上下文和RAG不是二选一

我看到有人认为长上下文出来后RAG就不需要了,这个看法有点绝对。长上下文适合处理一次任务内的大量材料,RAG更适合管理持续更新的知识和权限。真正的企业应用里,两者往往需要结合。

💬 0 回复 👁 11 浏览
陈算子 · 2026-06-13 11:54

模型选型别只看榜单,还要算三本账

企业做大模型选型时,我建议至少算三本账:推理成本、延迟成本和运维成本。有的模型单次效果好,但如果并发上来后成本不可控,也很难长期跑。选型最好用自己业务case测,不要只看通用榜单。

💬 0 回复 👁 11 浏览
m model_ops_lily · 2026-06-12 16:22

大模型落地时,长上下文并不等于完整记忆

最近在做方案评审时,很多团队会把长上下文窗口直接理解成“模型已经拥有项目记忆”。这个理解有点危险。 长上下文确实能减少切片和检索损耗,但它仍然需要结构化的资料组织、版本控制和来源标注。否则上下文越长,越容易把过期规则、历史结论和临时讨论混在一起。对企业应用来说,更稳的做法通常是:把长上下文用于一次...

💬 0 回复 👁 12 浏览
晋子轩 · 2026-06-09 16:21

上下文窗口 2M 之后:长文档 RAG 还要不要做 chunk?

模型上下文越来越长,我们重新评估了 RAG 架构: **仍需要 chunk 的场景**:权限过滤、多租户、成本敏感 **可全量塞入的场景**:单文档 <200K、强全局推理 **混合方案**:目录级路由 + 局部 chunk 精检 长窗口不是银弹,检索质量仍决定上限。

💬 2 回复 👁 269 浏览
纪晓彤 · 2026-06-07 07:18

译员会被 AI 取代吗?CAT + LLM 协作的真实节奏

翻译公司工作流更新后: 1. MT 预翻译 + 术语库 RAG 2. 译员改语义和风格(核心) 3. LLM 做一致性检查(人称、时态) 4. 人工终审法律/医学稿件 吞吐量 +60%,但高端同传和文学翻译仍靠人。

💬 1 回复 👁 110 浏览
邸诗韵 · 2026-06-05 13:29

论文阅读工作流 2026:arXiv + AI 摘要 + 笔记双向链接

研究生论文阅读栈分享: - 订阅:arXiv 关键词 + RSS - 初筛:AI 生成一句话贡献摘要 - 深读:Zotero 标注 + Obsidian 双向链接 - 组会:自动提取方法图和实验表 AI 不能替代批判性阅读,但能省 50% 整理时间。

💬 2 回复 👁 302 浏览
曹宇航 · 2026-06-04 13:14

手机端小语言模型:Gemini Nano、苹果端侧、国产方案对比

移动端 SLM 快速对比(2026 Q2): - **Gemini Nano**:Android 集成度高,能力中等 - **Apple FM**:延迟低,生态封闭 - **国产 1B 方案**:中文好,分发渠道要自建 场景建议:摘要、分类、简单改写放端侧;复杂任务仍走云。

💬 2 回复 👁 200 浏览
柴雪松 · 2026-06-04 11:19

LoRA 微调踩坑合集:rank、学习率与灾难性遗忘

开源模型微调 20 次实验总结: - rank 16-32 对 7B 多数任务够用 - 学习率 1e-4 到 3e-4,epoch 不宜过多 - 混入 10% 通用数据缓解遗忘 - 评估要用 held-out 业务集,别只看 loss 欢迎贴你们的最佳参数组合。

💬 2 回复 👁 136 浏览
谭博文 · 2026-06-02 10:35

垂直领域到底该微调还是提示工程?三类业务的对照实验

在相同 5000 条标注数据上做了对照: **客服 FAQ**:提示工程 + RAG 够用,微调 ROI 低 **医疗报告结构化**:7B 微调明显优于 GPT-4 + prompt **代码规范检查**:规则 + 小模型微调,延迟敏感 结论:数据 > 5000 且格式固定,优先考虑微调;否则 ...

💬 2 回复 👁 188 浏览
赵雨萱 · 2026-06-01 12:57

Qwen3 开源发布:中英文能力、MoE 架构与 API 定价一览

Qwen3 系列正式开源,快速总结几个关键点: 1. **Dense + MoE 双线**:32B Dense 适合单卡部署,235B MoE 激活参数约 22B,性价比突出 2. **中文能力**:长文本、古文、专业术语表现稳定,代码能力接近 Claude Sonnet 级别 3. **工具调用...

💬 2 回复 👁 263 浏览
韩雪松 · 2026-05-27 12:58

Prompt Injection 防护清单:上线 LLM 应用前必查的 10 条

整理一份我们安全团队用的上线 checklist,分享给准备部署 LLM 的朋友: 1. 输入长度限制 + 敏感词过滤 2. 系统 prompt 与用户输入明确分隔(推荐 XML/JSON 标签) 3. 输出侧 PII 检测与脱敏 4. 禁止模型执行未授权的工具调用 5. RAG 文档权限隔离,防...

💬 2 回复 👁 166 浏览
罗凯文 · 2026-05-26 11:41

强化学习在大模型训练中的最新进展

RLHF之后,RL在大模型领域的应用持续演进: 1. **DPO (Direct Preference Optimization)** - 简化了RLHF流程 2. **GRPO** - DeepSeek提出的组相对策略优化 3. **RLAIF** - 用AI反馈替代人类反馈,规模化对齐 4. ...

💬 2 回复 👁 191 浏览
韩雪松 · 2026-05-18 12:36

小模型 vs 大模型:什么场景该用哪个?

经常有人问我:是不是模型越大越好?答案显然不是。 **适合小模型的场景**: - 分类、NER等结构化任务 - 端侧部署(手机、IoT) - 成本敏感的高并发场景 - 领域明确且数据充足 **需要大模型的场景**: - 开放域对话和创作 - 复杂推理和规划 - 少样本/零样本学习 - 多模态理解...

💬 2 回复 👁 111 浏览
赵雨萱 · 2026-05-03 12:08

GPT-5 vs Claude 4 vs Gemini 2.5:三大模型实测对比

花了两周时间对三大旗舰模型做了系统性测试,涵盖代码生成、逻辑推理、长文本理解、中文能力等维度。 **代码能力**:Claude 4在复杂架构设计上略胜一筹 **中文理解**:Gemini 2.5进步明显,但GPT-5仍然最自然 **推理能力**:三者差距在缩小,GPT-5在数学推理上仍有优势 **...

💬 3 回复 👁 139 浏览