国产GPU升级万卡集群
创始人
2024-07-07 00:40:49

本报讯(记者 孙奇茹)日前,总部位于北京的国产GPU企业摩尔线程宣布其AI旗舰产品夸娥(KUAE)智算集群解决方案实现重大升级,从当前的千卡级别大幅扩展至万卡规模。

“AI模型训练的主战场,万卡已成为标配。”摩尔线程创始人兼CEO张建中说。随着计算量不断攀升,大模型训练亟需超级工厂,也就是一个“大且通用”的加速计算平台,从而缩短训练时间,实现模型能力的快速迭代。

所谓万卡集群,是指由一万张及以上的计算加速卡(如GPU)组成的高性能计算系统,用以训练基础大模型。据了解,构建万卡集群并非一万张GPU卡的简单堆叠,而是一项高度复杂的超级系统工程。“可以把万卡集群想象为一个万人团队,团队需要有非常强的沟通机制,才能协同把一件事情做好。”摩尔线程相关负责人说,希望能够建设一个规模超万卡、场景够通用、生态兼容好的加速计算平台,并优先解决大模型训练的难题。

稳定性方面,夸娥万卡集群平均无故障运行时间超过15天,最长可实现大模型稳定训练30天以上,周均训练有效率在99%以上。

相关内容

热门资讯

当AI遇上资本:马斯克的预言是... "当AI的算力突破奇点,资本主义的基石将开始崩塌。"埃隆·马斯克在2026年达沃斯论坛上的这番论断,...
潍坊智慧城管小程序新增年货大集... 春节临近,年味渐浓,市民置办年货、休闲出行的需求日益增长。近日,市城管执法支队对“潍坊智慧城管”微信...
OpenAI回应ChatGPT... 1 月 21 日消息,OpenAI 为实现通用人工智能(AGI)的愿景筹集资金,确认未来几周在 Ch...
我国首台!芯片制造核心装备取得... 近日,据中核集团中国原子能科学研究院消息,由该院自主研制的我国首台串列型高能氢离子注入机(POWER...
中国移动申请图像分割方法专利,... 国家知识产权局信息显示,中国移动紫金(江苏)创新研究院有限公司、中国移动通信集团江苏有限公司、中国移...