支持百万卡扩展,中科曙光发布国内首个开放架构 AI 超集群系统

2025-09-05 发布 · 浏览24次 · 点赞0次 · 收藏0次

9 月 5 日消息,在 9 月 5 日至 8 日的 2025 重庆世界智能产业博览会上,中科曙光发布了国内首个基于 AI 计算开放架构设计的产品 —— 曙光 AI 超集群系统

该系统以 GPU 为核心,实现了“算、存、网、电、冷、管、软”一体化紧耦合设计,可为万亿参数大模型训练推理、行业大模型微调、多模态大模型开发、AI4S 等场景提供算力底座。

图片

相比封闭系统,曙光 AI 超集群系统除了通过紧耦合设计像一台计算机般高效工作外,还支持多品牌 AI 加速卡以及兼容 CUDA 等主流软件生态,为用户提供更多开放性选择,并降低硬件成本和软件开发适配成本,保护前期投资。

附曙光 AI 超集群系统技术特点:

  • 单机柜可搭载 96 张 GPU 卡、算力规模达百 P 级、访存总带宽超 180TB/s;支持多精度、混合精度运算;支持百万卡超大集群扩展

  • 千卡集群大模型训练推理性能达到业界主流水平 2.3 倍、开发效率提升 4 倍、人天投入减少 70%;存算传协同,提升 GPU 计算效率 55%;先进冷板液冷,394 项节能设计 PUE 低于 1.12。

  • 121 项设备和链路 RAS 可靠性设计;平均无故障时间(MTBF)提高 2.1 倍;平均故障修复时间(MTTR)降低 47%;超 30 天长稳运行集群可靠性测试;实现百万级部件故障自动分析与秒级隔离。

  • 基于 AI 计算开放架构设计;硬件适配多品牌 AI 加速卡;软件兼容主流 AI 计算生态;多项技术能力开放与共享。

支持百万卡扩展,中科曙光发布国内首个开放架构 AI 超集群系统 - AI 资讯 - 资讯 - AI 中文社区

声明:本文转载自IT 之家,转载目的在于传递更多信息,并不代表本社区赞同其观点和对其真实性负责,本文只提供参考并不构成任何建议,若有版权等问题,点击这里。本站拥有对此声明的最终解释权。如涉及作品内容、版权和其它问题,请联系我们删除,我方收到通知后第一时间删除内容。

点赞(0) 收藏(0)
0条评论
珍惜第一个评论,它能得到比较好的回应。
评论

游客
登录后再评论
  • 鸟过留鸣,人过留评。
  • 和谐社区,和谐点评。