DeepSeek-V3 以 20 个令牌/秒的速度在本地运行,对 OpenAI 构成挑战

AI快讯 2025-03-26

image.png


中国 AI 初创公司 DeepSeek 悄悄发布了其最新的大型语言模型 DeepSeek-V3-0324,在 AI 行业掀起了轩然。641GB 模型现已上线 Hugging Face,在 MIT 许可下提供商业用途,并且可以在配备 M3 Ultra 芯片的 Apple 高端 Mac Studio 上以每秒 20 多个令牌的速度本地运行,这与 ChatGPT 或 Claude 等模型通常需要的 GPU 密集型基础设施相比发生了重大转变。

“新的 4 位 DeepSeek-V3-0324 在配备 mlx-lm 的 512GB M3 Ultra 上以 > 20 个令牌/秒的速度运行!”


本地 AI 性能重新定义了预期

虽然售价 9,499 美元的 Mac Studio 可能会扩展“消费级”的标签,但在本地运行如此庞大模型的能力是一个重大飞跃。在其 4 位量化形式中,该模型缩小到 352GB,允许在高端个人机器上高效部署。

这种转变与需要大量 GPU 资源的传统基于服务器的模型形成鲜明对比。相反,Mac Studio 在推理过程中消耗的功率不到 200 瓦,而标准 AI 基础设施所需的功率则为数千瓦,从而引入了一种更节能的作模式。

没有炒作,只有性能

DeepSeek 发布了 V3-0324,没有白皮书或发布活动,只有 README 和模型权重。这种低调的策略与西方 AI 公司精心设计的营销部署背道而驰。

尽管如此,早期测试人员报告了比以前版本令人印象深刻的结果:

“在我的内部工作台上测试了新的 DeepSeek V3,它在所有测试的所有指标上都有了巨大的跃升。它现在是最好的非推理模型,取代了 Sonnet 3.5。— Xeophon,AI 研究员

与位于订阅付费墙后面的 Sonnet 不同,DeepSeek-V3-0324 的权重可供任何人免费下载和使用。


模型内部:更智能、

DeepSeek-V3-0324 采用专家混合 (MoE) 架构,每个任务仅激活其 6850 亿个参数中的 370 亿个,而传统模型则为每个任务激活其全部参数计数。这种设计提供了强大的性能,同时大大降低了计算需求。通过为每个任务仅选择最相关的“专家”参数,DeepSeek-V3-0324 可提供与完全激活的模型相当的性能,而计算成本只是其中的一小部分。

其他创新包括:

  • 多头潜在注意力 (MLA):提高长篇文章的上下文保留。

  • 多令牌预测 (MTP):每步生成多个令牌,输出速度提高 80%。

这些功能与模型的 4 位量化版本配合使用,可实现闪电般的性能,并显著降低内存和功耗。

战略转变:开源与封闭墙

DeepSeek 的模型是免费提供的,与 OpenAI 和 Anthropic 的仅限订阅的模型形成鲜明对比。这一策略反映了中西方人工智能理念之间日益增长的分歧:

  • 美国公司:通过付费 API 和封闭模式实现盈利。

  • 中国公司:通过开源基础模型获得生态系统主导地位,创造“乘数效应”,使任何人都可以在不花费大量费用的情况下进行构建。

百度、腾讯和阿里巴巴等主要中国公司纷纷效仿,进一步加速了这一趋势。这种开放的方法支持小型参与者的创新,同时解决由于 Nvidia 出口限制而导致的硬件限制。

下一步:DeepSeek-R2 即将推出

有传言称,DeepSeek-V3-0324 是即将推出的推理模型 DeepSeek-R2 的基础,预计将在两个月内推出。如果 R2 像许多人预期的那样与 GPT-5 竞争,它可能会重塑 AI 竞赛。

“这与他们在圣诞节前后发布 V3 和几周后发布 R1 的方式一致。有传言称 R2 将于 4 月发布,所以可能就是这样。— Reddit 用户 mxforest

mxforest 表明 DeepSeek-V3 预示着 R2 模型即将发布。图片来源:mxforest Reddit 帖子

值得注意的是,Nvidia 首席执行官黄仁勋最近透露,DeepSeek 的 R1 模型消耗的计算量是非推理 AI 的 100 倍,突显了这些高效系统背后的成就。它强调了 DeepSeek 模型的卓越成就,这些模型与顶级性能相匹配,同时在比西方同类模型更严格的资源限制下运行。

如何访问 DeepSeek-V3-0324

开发人员和研究人员可以通过多种方式试验该模型:

  • 直接下载:通过 Hugging Face 获得权重(未压缩 641GB,4 位格式为 352GB)。

  • 云访问:OpenRouter 提供免费的 API 访问和聊天界面。

  • DeepSeek 聊天:可能升级到 V3-0324,但尚未得到官方确认。

  • 推理服务:Hyperbolic Labs 和其他公司已经为该模型提供服务。

新用例的新基调

早期用户已经注意到模型的沟通方式发生了变化。虽然早期的 DeepSeek 版本以其对话式、类似人类的语气而闻名,但 V3-0324 采用了更正式、更注重技术的角色。一些用户注意到该模型的沟通风格发生了变化:

“是只有我一个人,还是这个版本感觉不那么像人类nother_level?”

Reddit 用户 nother_level 表示,DeepSeek-V3-0324 感觉不如早期型号那么人性化。图片来源: nother_level Reddit 帖子

“是的,它肯定失去了冷漠的魅力,它感觉太聪明了,对它本身没有好处。”— Reddit 用户 AppearanceHeavy6724

来自 AppearanceHeavy6724 的社区反馈:DeepSeek-V3-0324 失去了它的“冷漠魅力”。图片来源:AppearanceHeavy6724 Reddit 帖子

这种向更正式、技术性的语气的转变可能反映了向企业和专业用途的转变,其中精确性和一致性比对话魅力更有价值。

这意味着什么

DeepSeek 悄无声息但功能强大的发布代表了一个更广泛的趋势:AI 不再仅仅关乎原始力量,还关乎访问、效率和开放性。通过优先考虑经济实惠的硬件的广泛可用性和优化的性能,DeepSeek 正在改变 AI 开发的格局。

这种方法正在迅速缩小中美之间感知到的 AI 差距。虽然分析师最近认为中国落后了 1-2 年,但这一估计已经缩小到仅 3-6 个月——一些地区接近平局,甚至显示出中国领导地位的迹象。

随着越来越多的开发人员获得高性能的开放模型,创新中心可能会从严格控制的系统转向更加分散、全球协作的未来。这家让大多数人能够使用 AI 进行构建(而不仅仅是使用 AI )的公司最终可能会塑造下一个技术时代。

©️版权声明:若无特殊声明,本站所有文章版权均归AI工具集原创和所有,未经许可,任何个人、媒体、网站、团体不得转载、抄袭或以其他方式复制发表本站内容,或在非我站所属的服务器上建立镜像。否则,我站将依法保留追究相关法律责任的权利。

相关文章