文章目录[隐藏]
在AI领域,DeepSeek 最近取得了令人瞩目的成就,他们使用了由 2048 个英伟达H800 GPU 组成的集群,在短短两个月内训练出了一个包含 6710 亿参数的混合专家(MoE)语言模型。这一成果不仅展示了其卓越的技术实力,还揭示了一种不同于传统 CUDA 的新颖优化路径——英伟达 类似汇编语言的 PTX(并行线程执行)编程。
深度优化:从 CUDA 到 PTX
通常情况下,AI 开发者依赖于 英伟达的 CUDA 来编写高效的 GPU 程序。然而,DeepSeek 转而采用更接近硬件层面的 PTX 编程,以实现更加细致的优化。PTX 是一种中间指令集架构,位于高级 GPU 编程语言和低级机器代码之间,允许开发者进行诸如寄存器分配、线程/warp 级别的调整等细粒度优化。这种策略使得 DeepSeek 能够超越标准 CUDA 开发所能达到的性能界限。
技术细节与创新应用
DeepSeek 在其 V3 模型训练过程中,对英伟达H800 GPU 进行了深度定制。例如,它们将 132 个流式多处理器中的 20 个专门用于服务器间的通信任务,如数据压缩与解压缩,从而克服了处理器之间的连接限制,并加快了事务处理速度。此外,通过实施先进的流水线算法,进一步提升了系统性能。
行业影响与未来展望
DeepSeek 的这一突破对行业产生了重要影响。一方面,它表明即使在全球 GPU 短缺及美国相关限制措施下,仍有途径推动技术创新。另一方面,该成就可能降低市场对高性能硬件的需求预期,进而影响到英伟达 等公司的销售前景。英特尔前首席执行官 Pat Gelsinger 观察到,尽管如此,AI技术的发展仍然需要尽可能多的计算资源支持。他认为,DeepSeek 的工作实际上为将 AI 应用于更多低成本设备铺平了道路。