字节跳动开源大模型训练框架veGiantModel,性能最高提升6.9倍 profile-avatar
作者:啊哈哈哈 来源:ai08门户网 时间:2025-06-10 16:16:12
近日,字节跳动应用机器学习团队开源了一款名为 veGiantModel的大模型训练框架,该训练框架主要应用于自然语言处理领域的大模型训练,最高可将大模型训练的性能提升6.9倍,大幅降低训练系统的压力。目前,字节跳动旗下的企业级技术服务平台火山引擎已在其机器学习平台上原生支持了 veGiantModel,该平台正在公测中 。
自然语言处理是人工智能研究的一个重要领域,旨在帮助计算机理解、解释和运用人类语言。近些年,自然语言处理在应用方面取得了较为显著的突破,主要是归功于Bert、GPT、GPT-3等预训练语言模型的普及。可以说,预训练语言模型已经成为人工智能领域的基础设施。由于大模型的算法表现更加出众,预训练语言模型在近几年呈现出迅速向大模型发展的趋势。然而,模型体积的快速增长也对现有的训练系统带来了不小的挑战,主要体现为显存压力、计算压力和通信压力。
针对现有训练系统在大模型训练场景下的上述挑战, 字节跳动应用机器学习团队提出了大模型训练框架veGiantModel。
veGiantModel的中文名称叫做火山引擎大模型训练框架,是基于开源深度学习框架 PyTorch 、并在 Megatron 和 DeepSpeed 两大开源主流训练框架的基础之上构建的高性能大模型训练框架。
veGiantModel可同时支持数据并行、算子切分、流水线并行 3 种分布式并行策略,并支持自动化和定制化的并行策略;基于字节自研的高性能异步通讯库ByteCCL,veGiantModel的训练任务吞吐相比其他主流开源框架有 1.2 倍到3.5倍的提升,并且提供了更友好、灵活的流水线支持,降低了模型开发迭代所需要的人力;另外,veGiantModel可在 GPU上高效地支持数十亿至上千亿参数量的大模型,对网络带宽要求也更低,在私有化部署时无 RDMA 强依赖。
与 Megtraon 和 DeepSpeed 的对比测试显示,veGiantModel 的性能表现最好、受网络带宽影响最小,在Tesla V100上较上述两者有1.2 倍到3.5倍的提升,在Ampere A100上最高可提升6.9倍。
veGiantModel开源 地址:
https://github.com/volcengine/veGiantModel
火山引擎机器学习平台公测地址:
https://www.volcengine.com/product/ml-platform
“
更多资讯
热门文章
推荐对话
换一换- 人气排行
- 1 字节跳动开源大模型训练框架veGiantModel,性能最高提升6.9倍 profile-avatar
- 2 MEET2021 | 容联云通讯CPO熊谢刚:用AI替代人是伪命题,应该用AI去做人所不能
- 3 眼神科技CTO江武明:多模态统一身份认证——数字化的入口和枢纽|量子位·视点分享回顾
- 4 MEET2021 | 小米副总裁崔宝秋:智能手机是今天AI技术最大的平台,AIoT又让AI无处不在
- 5 掌握全球最新前沿动向,一天时间就够了|MEET大会倒计时7天
- 6 AIGC,沉浸式学习体验新转机|量子位·视点 x 幻霄科技
- 7 MEET2021 | 地平线黄畅:软件2.0时代,数据驱动进化,算力将成为智能化的基石
- 8 MEET2021 | 小冰公司CEO李笛:强大的AI工具不该给企业,应该给劳动者
- 9 英伟达NLP公开课第1期:使用NeMo快速入门NLP、实现机器翻译任务,英伟达专家实战讲解,内附代码
- 10 中关村科金张杰:ChatGPT火爆背后,对话式AI在企业服务场景面临三大挑战|MEET2023