DeepSeek 发布 V3-0322:开源模型在关键基准上匹配 GPT-4.5
Available in: 中文
DeepSeek 发布 V3-0322,671B 总参数/37B 活跃参数的 MoE 开源模型,在关键基准上匹配 GPT-4.5,MIT 许可完全可自托管。
DeepSeek 发布 V3-0322:开源模型在关键基准上匹配 GPT-4.5
中国 AI 实验室 DeepSeek 发布了 V3-0322,这是其开源语言模型的更新版本,在多个关键基准上匹配或超越 GPT-4.5 性能,同时保持完全开放权重且可在消费级硬件上运行。
模型规格
- 架构:混合专家(MoE),总计 6710 亿参数
- 活跃参数:每次推理 370 亿(高效)
- 上下文窗口:128K tokens
- 许可:MIT 许可(完全开放)
基准性能
- MMLU:在广泛知识任务上匹配 GPT-4.5
- HumanEval:强大的编码性能
- 数学推理:改善的数学问题解决能力
- 指令遵循:更好地遵循复杂提示
- 多语言:中英文性能强劲
重要意义
- 开源竞争力:证明开源模型可以匹配专有模型
- 成本颠覆:组织无需 API 费用即可运行前沿 AI
- 地缘政治:中国 AI 实验室产出与美国对手竞争的模型
- 硬件要求:可在多 GPU 消费级设置上运行
来源: DeepSeek 官方公告
← Previous: Apple AirTag Used to Solve Series of Catalytic Converter Thefts Across Multiple StatesNext: United Airlines Preps for Oil Crisis: CEO Plans for $175/Barrel Jet Fuel →
0