DeepSeek开源周第三天开源项目:DeepGemm
作者:啊哈哈哈 来源:AI零八工具 时间:2025-03-11 15:23:02
DeepGemm是什么?
DeepGEMM是一个专为高效FP8通用矩阵乘法(GEMM)设计的库,具有细粒度缩放功能,支持普通和混合专家(MoE)分组GEMM。

DeepGemm的技术特点
CUDA编写:DeepGEMM使用CUDA编写,无需编译,采用轻量级即时(JIT)模块在运行时编译所有内核。
细粒度缩放功能:支持普通和混合专家(MoE)分组GEMM,适用于不同的矩阵形状和计算需求。
性能优化:采用CUDA核心两级累积(提升)解决不精确的FP8张量核心累积问题,利用Hopper TMA功能加速数据移动。
DeepGemm的主要优势
性能优异:尽管设计轻量,但其性能匹敌甚至超过了各种矩阵形状的专家调整库。
易于访问:作为一个干净且易于访问的资源,DeepGEMM是学习Hopper FP8矩阵乘法和优化技术的理想选择。
灵活性:支持自动选择块大小、warpgroups数量、最佳流水线阶段和TMA集群大小,以适应不同的计算需求。
DeepGemm的应用场景
DeepGEMM适用于需要高效矩阵乘法操作的场景,特别是在深度学习ai模型训练和推理中,能够显著提高计算效率和性能。
github:https://github.com/deepseek-ai/DeepGEMM
其它相关链接
1.DeepSeek开源周第二天开源项目:Deepep
2. DeepSeek开源周第一天开源项目:DeepSeekFlashMLA
更多资讯
热门文章
推荐对话
换一换- 人气排行
- 1 “豆包P图”火出圈AI成年轻人修图新选择
- 2 从词书到大模型,AI背词赛道大爆发
- 3 一次美国自驾,看清中美AI的差异性
- 4 3个月新增500万,微软GitHubCopilot累计用户突破2000万
- 5 刚刚,DeepSeek梁文锋NSA论文、北大杨耀东团队摘得ACL 2025最佳论文
- 6 特斯拉Robotaxi上线加州:全程由人类驾驶
- 7 高通孟樸:要把AI“装进”汽车关键在于构建强大的终端侧AI能力
- 8 每月300美元:马斯克宣布将向GrokHeavy订阅用户推出AI虚拟男友服务“Valentine”
- 9 OpenAI年收入或达到120亿美元
- 10 微软公布40个即将被AI摧毁的职业!编辑不幸中招你的职业在名单上吗

