大模型产品要真正好用,关键不只是提示词,而是上下文工程
很多团队在做大模型应用时,最先投入精力的是提示词优化。提示词当然重要,但如果只盯着提示词,很容易把问题看窄。一个大模型产品是否稳定好用,更核心的其实是上下文工程:在正确的时间,把正确的信息,以正确的结构交给模型,并且让模型知道哪些内容可信、哪些内容过期、哪些内容只能参考不能执行。
上下文工程包含很多细节。比如知识库不是把文档切片后塞进向量库就结束了,还要处理文档版本、权限、来源、更新时间和冲突规则。比如用户的一次请求,也不应该只原样传给模型,而要结合用户身份、业务对象、历史操作、当前流程状态一起组织。再比如长上下文窗口虽然有用,但并不意味着可以无限堆材料;材料越多,越需要摘要、排序、引用和约束,否则模型反而更容易混淆重点。
我更推荐把大模型应用拆成四层来看:数据层负责可信来源,检索层负责召回相关材料,编排层负责把任务拆成可控步骤,模型层负责生成、推理和表达。这样设计的产品,调试时能定位问题,迭代时能量化收益,出错时也更容易回滚。未来真正拉开差距的,可能不是谁会写一个神奇提示词,而是谁能把上下文、工具、权限和评测组织成一套可靠系统。
回复 (12)
上下文工程这个提法很准。很多行业应用的差距,其实不在于模型本身,而在于给模型看了什么。
我做agent时最有感触的是,工具调用前的上下文整理决定了一半效果。信息给错了,后面步骤再多也会偏。
权限和来源标注是很容易被忽略的点。尤其是多部门共用知识库时,模型不应该看到用户本来无权查看的内容。
从用户体验看,好的上下文工程是隐形的。用户只会感觉“它真的懂我的任务”,但背后其实是很多结构化工作。
这也能解释为什么不同公司用同一个模型,最后效果差很多。上下文组织能力本身就是产品力。
长上下文不是银弹。我见过把大堆无关材料都塞进去的案例,最后模型反而抓不住真正的任务目标。
建议再加一层日志设计:每次模型回答用了哪些来源、哪些工具、哪些用户权限,都应该可查。
提示词的价值还在,但更像是最后的表达层。前面的数据、检索、编排没做好,prompt很难救场。
上下文工程可能会成为AI产品的新基础设施能力,类似以前企业软件里的数据建模和权限系统。
对开发者来说,这篇的四层拆分很实用。遇到效果问题时,可以先判断是数据、检索、编排还是模型的问题。
我最喜欢“哪些内容可信、哪些过期、哪些只能参考”这个表述,它把AI风险控制说得很具体。
这篇适合给准备做AI知识库的团队看。先别急着选工具,先把知识的结构、更新和责任人想清楚。
登录 后参与讨论