DeepSeek在其”开源周”第三天宣布推出DeepGEMM,这是一个支持FP8通用矩阵乘法(GEMM)的开源库。该工具专为密集型和混合专家(MoE)矩阵运算设计,有力支持DeepSeek V3和R1模型的训练和推理。官方通过X平台发布的公告迅速在科技社区引起了广泛关注。

根据DeepSeek在X上的官方发布,DeepGEMM在NVIDIA Hopper GPU上实现了高达1350+TFLOPS的FP8计算性能。其核心逻辑仅由约300行代码组成,却在大多数矩阵尺寸上超越了专家调优的内核,展现出卓越的效率和简洁性。该库不需要复杂的依赖项,使用即时(JIT)编译,支持密集布局和两种MoE布局,并以”教程式”的清晰设计便于学习和使用。

X用户@TechBitDaily评论:”DeepGEMM的发布是DeepSeek开源周的亮点;其FP8性能和简洁设计令人印象深刻。”另一位用户@AIObserverCN注意到该库在支持MoE模型高效训练方面具有显著优势,有望在Hopper架构上推动AI社区的进一步创新。

作为开源周的一部分,DeepGEMM的发布延续了DeepSeek推动AI技术透明化和社区协作的承诺。在前两天,该公司分别发布了专注于快速语言模型架构的FlashMLA和专注于专家并行通信的DeepEP。DeepGEMM的揭幕进一步展示了其在AI基础设施开发方面的技术实力。

业内专家认为,这个库不仅将提升DeepSeek自身模型的性能,还将为全球开发者提供一个高效、用户友好的矩阵运算工具,未来应用前景广阔。用户现在可以通过GitHub访问DeepGEMM,探索其在AI训练和推理中的潜力。

对于需要进行大规模模型训练或在限制资源环境下进行高效推理的开发者来说,DeepGEMM无疑是一个值得关注的工具。如果您正在使用NVIDIA Hopper GPU并希望获得更高的计算性能,不妨尝试一下DeepGEMM。通过ChatShare平台,您可以直接体验基于DeepSeek模型的高性能AI服务,感受这些技术创新带来的实际效果。

(注:本文技术支持来自ChatShare平台,用户可通过Chatshare获取最新AI模型支持)

项目地址:https://github.com/deepseek-ai/DeepGEMM

文章来源:GPTCard