字节跳动联合北京大学打造MegaScale：用于训练LLM的单一“万卡集群”

aiuc • 2024年2月29日上午11:20 • AI资讯 • 阅读 9

[db:摘要]

字节跳动联合北京大学的研究团队在arXiv发表论文，介绍了他们用于训练大语言模型的生产系统MegaScale。MegaScale搭建了超过10000块GPU的单一集群，实现了55.2%的模型FLOP利用率。该系统还包含一套诊断工具用于监控系统组件和事件，找出根本原因，并实现容错和缓解滞后问题。

本文由「aiuc」编辑整理，文章链接：https://www.aiuc.net/21200

该文观点仅代表作者本人，平台仅提供信息存储空间服务。

LLM MegaScale 字节跳动

赞 (0)

0 0

百度创始人李彦宏强调多模态融合的重要性，百度在文生视频等领域进行投资

上一篇 2024年2月29日

Sora进军TikTok：AI短视频营销革命来临

下一篇 2024年2月29日

AI资讯

爱立信发布原生AI设计：六方面引入人工智能，助运营商解决痛点问题

0070

aiuc
2020年3月25日
AI资讯

“我被人脸识别技术误认为是扒手”

0060

aiuc
2024年5月27日
AI资讯

揭秘周鸿祎：DeepSeek 如何打破开源壁垒，引领真正的Open AI革命？

0070

aiuc
2025年2月2日
AI资讯

牛津大学停止接受华为的捐赠和资助，华为正在等待解释

0070

aiuc
2019年1月18日
AI资讯

AI裸泳，用户裸奔？

0060

aiuc
2020年9月16日
AI资讯

AI电竞战队“SUPEX”亮相，高通联手业界让电竞训练科学化

0080

aiuc
2019年4月22日
AI资讯

SK海力士成立新部门AI Infra 负责人工智能半导体业务

0080

aiuc
2023年12月8日
AI资讯

Meta宣布将关闭面部识别系统删除超10亿用户面部扫描数据

0070

aiuc
2021年11月3日
AI资讯

影石Insta360推出全球首款支持苹果DockKit的AI手机稳定器

0070

aiuc
2024年7月4日

发表回复