首页能源头条推荐资讯详情
阿里平头哥发布首款网卡,打通AI万卡集群
发布者:
来源:
据了解,这款研发历时约三年、搭载自研芯片的智能网卡,最大支持400Gbps网络吞吐带宽,并创新性地将PCIe Switch集成于芯片内部,旨在解决大规模AI集群中“算得快、传得慢”的通信墙问题。
据悉,该产品目前已量产,将率先在阿里云数据中心部署,同时公司对向第三方销售持开放态度。
当大模型训练进入「万卡集群」时代,行业的目光往往只盯着GPU的算力峰值(TFLOPS),却忽略了决定算力有效性的关键——网络传输。
平头哥产品总监李旭慧在现场直言:“AI场景下需要极低延时的通信,而市面上很多企业级网卡无法胜任大模型时代的性能需求,导致GPU只有部分算力被有效利用。”
这就是典型的「通信墙」问题:当GPU的计算速度远超数据加载和通信速度时,昂贵的算力卡会长期处于等待状态。在万卡集群中,这种因网络瓶颈导致的算力闲置,往往会造成较大的效率折损。
“磐脉920”的推出,正是为了拆掉这堵墙。官方参数显示,其最大支持400Gbps的网络吞吐带宽,这一指标远超当前国内主流智能网卡(通常处于100-200Gbps水平),旨在让数据流动的速度匹配GPU的计算速度。
“磐脉920”并非简单的参数堆砌,其在架构上做出了两项关键创新,以应对超大规模集群的复杂性。
一个是芯片级集成PCIe Switch。传统服务器设计中,PCIe Switch通常作为独立芯片集成在主板上,用于扩展连接。平头哥创新性地将PCIe Switch直接集成到网卡芯片内部。
这种设计打破了物理限制,使网卡能以极低时延直连GPU和固态硬盘(SSD),减少了数据在主板上的绕路损耗。
官方称这一设计可简化主板设计,减少对外部交换芯片的依赖,使系统成本降低约30%。
第二个创新是抗拥塞机制的多路径RDMA。RDMA(远程直接内存访问)是AI集群高速通信的标配技术,但传统RDMA依赖单一路径,易受网络波动影响。
“磐脉920”支持多路径RDMA,允许数据在多条网络链路间动态分配,突破了单一路径的技术限制。因此,在万卡集群的高并发场景下,可有效避免网络拥塞,缩短模型训练和推理任务的完成时间。
平头哥此次布局智能网卡,标志着其完成了数据中心“算力-存力-网力”的体系化布局。
李旭慧解释了这一多元化布局的逻辑:“如果只做一款AI芯片,可能在算力集群的搭建中被其他硬件环节上的短板拖累。”
在高端智算领域,单一节点的性能强大已不再是决定性优势,全栈系统的协同效率才是关键。因此,平头哥通过自研“算力-存力-网力”铁三角,旨在为阿里云及外部客户提供一套不受外部供应链短板制约的垂直解决方案。
据官方透露,“磐脉920”首批产品将直接在阿里云数据中心部署,用于支撑阿里内部的大模型训练和推理业务。对向第三方销售持开放态度,未来将面向其他云厂商和智算中心提供产品。
值得注意的是,通过将PCIe Switch集成进网卡,平头哥在某种程度上是在重新定义服务器内部的硬件连接标准。外部客户以及厂商会不会接受并跟进,仍待验证。
反馈举报
声明:以上信息仅代表发布者自身观点,并不代表本平台赞同其观点,也不代表本平台对其真实性负责。
大家都在看

广告
评论 0
网友评论仅供其表达个人看法,并不表明平台立场。全部评论
加载失败
总发布:320粉丝:0
相关推荐
- 加载失败
- 加载失败
- 加载失败
- 加载失败
- 加载失败
新经济资讯
- 加载失败
向日葵
- 加载失败
- 加载失败
- 加载失败
往事随風
- 加载失败







