DeepSeek 的新模型效率高,华为NPU已经适配
作者: CBINEWS
责任编辑: 邹大斌
来源: 电脑商情在线
时间: 2026-04-27 10:53
中国 AI 界的宠儿 DeepSeek 又回来了,这次带来了一个新的开源权重大语言模型,号称性能足以抗衡美国最好的闭源 LLM。更重要的是,它声称能大幅降低推理成本,并且扩展了对华为昇腾(Ascend)系列 AI 加速器的支持。
上周五发布的 DeepSeek V4 已经在 Hugging Face 等热门模型库、公司 API 以及网页服务中提供下载,并推出了两种新变体。第一种是较小的 2840 亿参数 Flash 混合专家(MoE)模型,其中激活参数为 130 亿;而较大的那个则是 1.6 万亿参数模型,每次仅使用其中的 490 亿参数。
V4-Pro 在 33 万亿 token 上进行了训练。如果 DeepSeek 所言不虚,它在各项基准测试中不仅击败了所有开源权重 LLM,还能与西方最好的闭源模型相媲美。
当然,对这些说法咱们得持保留态度。虽然 DeepSeek 凭借 V3 和 R1 系列模型有着良好的过往记录,让它在中国开发者圈子里家喻户晓,但在实验室的基准测试中表现好,并不意味着它在现实世界的应用中也能撑得住。
我们预计 DeepSeek V4-Pro 会比该公司之前的努力强得多。新模型的参数量增加了近一万亿,并且在推理过程中使用了更多的激活参数。但就像 DeepSeek V3 的情况一样——当时它证明了训练大型前沿模型所需的算力比预想的要少——基准测试并不能说明全部真相。
引擎盖下的秘密
在底层架构上,DeepSeek V4 引入了一些新颖的架构变更,据开发者称,这将大大降低模型的部署成本。
首先是相当简单的一点。这次,DeepSeek 发布了一个较小的 Flash 模型,它运行所需的硬件设施更少,能以更低的成本提供更具交互性的用户体验。毕竟,模型越小,服务起来就越便宜。
这本身不是什么新策略,但这是 DeepSeek 直到现在才开始采用的策略,至少对于其自研模型来说是如此。
更大、更有意义的改变在于 DeepSeek 计算注意力(Attention)的方式。模型的注意力机制决定了它如何将提示词转换为键值对(Key-Value pairs),进而用于生成输出 token。
在随新模型发表的一篇论文中,DeepSeek 的研究人员描述了一种混合注意力机制,它结合了两种技术:压缩稀疏注意力(Compressed Sparse Attention)和重度压缩注意力(Heavy Compressed Attention),旨在减少推理所需的计算量以及用于跟踪模型状态的 KV 缓存所需的内存。
后一点是 DeepSeek V4 效率的关键,因为这些缓存可能非常大。推理服务提供商通常倾向于将这些缓存卸载到系统内存或闪存中,以避免冷启动的惩罚。重度压缩的 KV 缓存意味着大规模推理部署所需的内存和存储更少。
综合来看,这些技术意味着该模型可以支持一百万 token 的上下文窗口,同时内存使用量比 DeepSeek V3.2 少 9.5 到 13.7 倍。
为了进一步减少模型的内存占用,DeepSeek 延续了使用低精度数据类型的传统。DeepSeek V3 是最早以 FP8 精度训练的开源权重模型之一。
现在,V4 的两个模型都在混合使用 FP8 和 FP4 精度。具体来说,模型开发者对 MoE 专家权重使用了量化感知训练。
正如我们之前讨论过的,FP4 实际上将存储模型权重所需的内存比 FP8 减少了一半。如果你能忍受精度的损失,这确实是一笔巨大的节省。
DeepSeek 的架构改进不仅限于推理。在 V4 中,模型开发者引入了一种名为 Muon 的新优化器,旨在加快收敛速度并提高训练稳定性。
自研模型配国产硬件
关于新模型,也许最有趣但也最缺乏细节的一点是它们运行的硬件。虽然 DeepSeek V3 是针对 Hopper GPU 进行了大量优化,但 V4 已经验证可以在 Nvidia 和华为加速器上运行。
DeepSeek V4 的论文只是顺带提到了这些芯片,指出该公司在英伟达GPU 和华为昇腾 NPU 平台上验证了其“细粒度 EP(专家并行)方案”。
要明确一点,这并不意味着模型完全是在华为硬件上训练的,只是 DeepSeek 验证了这家中国电信巨头的 AI 加速器可以用来部署该模型。
由猜测,DeepSeek 有可能使用英伟达 GPU 进行预训练,而使用华为加速器进行强化学习。后者是一个与推理相关的训练后步骤,用于教会模型新技能、行为和思维链推理。不过,论文并没有直接解决这个问题。
最后,V4 中使用 4 位精度数据类型可能会让一些人误以为 DeepSeek 搞到了 Nvidia 的 Blackwell 加速器(这家 AI 军火商不被允许在中国销售该产品),但这并非绝对必要。
Hopper GPU 不支持 FP4 硬件加速,但可以仅以权重的方式处理这种数据类型。这种方法虽然不能提升浮点性能,但减少了训练和推理所需的内存占用和带宽,因此在许多用例中是一个值得的权衡。
定价促销
DeepSeek V4 目前处于预览阶段,模型的基版和指令微调版均可下载或通过 API 访问。
毫不意外,该公司以较低的价格提供较小模型的 API 访问权限:每百万输入 token(未缓存)0.14 美元,每百万输出 token 0.28 美元。
较大的 Pro 模型要贵得多,每百万输入 token 1.74 美元,每百万输出 token 3.48 美元,但这仍然只是西方 AI 厂商对其顶级模型收费的一小部分。作为参考,OpenAI 对 GPT-5.5 的收费是每百万输入 token 5 美元,每百万输出 token 30 美元。
