Qwen3 开源发布:中英文能力、MoE 架构与 API 定价一览
Qwen3 系列正式开源,快速总结几个关键点:
1. **Dense + MoE 双线**:32B Dense 适合单卡部署,235B MoE 激活参数约 22B,性价比突出
2. **中文能力**:长文本、古文、专业术语表现稳定,代码能力接近 Claude Sonnet 级别
3. **工具调用**:原生 Function Calling,和 MCP / LangChain 集成顺畅
4. **许可**:Apache 2.0,商用友好
我们在内部评测中拿 Qwen3-32B 替换了部分 GPT-4o-mini 的调用,成本降了 70%。有人已经在生产环境跑了吗?
回复 (2)
235B MoE 用 vLLM 跑起来很丝滑,Function Calling 格式和 OpenAI 兼容,迁移成本几乎为零。
32B Dense 在单卡 4090 上 AWQ 量化后约 18GB 显存,推理 20 tokens/s,本地开发足够。
登录 后参与讨论