小模型 vs 大模型:什么场景该用哪个?

韩雪松 AI安全研究员
楼主
经常有人问我:是不是模型越大越好?答案显然不是。 **适合小模型的场景**: - 分类、NER等结构化任务 - 端侧部署(手机、IoT) - 成本敏感的高并发场景 - 领域明确且数据充足 **需要大模型的场景**: - 开放域对话和创作 - 复杂推理和规划 - 少样本/零样本学习 - 多模态理解 我们团队的经验是:先用小模型做baseline,搞不定再上大模型。很多时候DistilBERT级别的模型就够用了。

回复 (2)

黄志鹏 后端架构师,LLM推理优化
#1
说得太对了!我们做过测试,一个微调过的BERT-base在特定NER任务上效果不输GPT-4,推理成本只有千分之一。
罗凯文 PhD在读,强化学习方向
#2
RL方向补充:RLHF的scalability确实是个问题。RLAIF是趋势,但AI judge的可靠性还需要更多研究。我们实验室正在探索这个方向。