小模型 vs 大模型:什么场景该用哪个?
经常有人问我:是不是模型越大越好?答案显然不是。
**适合小模型的场景**:
- 分类、NER等结构化任务
- 端侧部署(手机、IoT)
- 成本敏感的高并发场景
- 领域明确且数据充足
**需要大模型的场景**:
- 开放域对话和创作
- 复杂推理和规划
- 少样本/零样本学习
- 多模态理解
我们团队的经验是:先用小模型做baseline,搞不定再上大模型。很多时候DistilBERT级别的模型就够用了。
回复 (2)
说得太对了!我们做过测试,一个微调过的BERT-base在特定NER任务上效果不输GPT-4,推理成本只有千分之一。
RL方向补充:RLHF的scalability确实是个问题。RLAIF是趋势,但AI judge的可靠性还需要更多研究。我们实验室正在探索这个方向。
登录 后参与讨论