首页能源头条推荐资讯详情
深度丨从GPU到系统全栈,AI算力价值重心正向CPU迁移
发布者:
来源:
前言:
在过去三年里,AI算力叙事几乎被单一逻辑主导,GPU即算力,算力即GPU。
但当AI从模型竞赛进入系统竞赛,算力价值正在发生一场更深层的结构性转移。
算力的价值重心正在从GPU芯片本身,向CPU+系统层迁移。
CPU回归C位,从配角到调度中枢
Agentic AI的出现,彻底颠覆了AI的工作模式。
一个典型的Agent任务,往往包含数十次网络搜索、API调用、代码执行、文档解析与结果编排,这些工作负载的特性,早已超出了GPU的并行优势范畴。
在Agent的工作流中,GPU依然负责核心的token生成,而CPU承担起了
让token真正发挥作用
的重任。
这意味着,用户感知到的AI响应速度与使用体验,不再由GPU的算力上限决定,而是被CPU的处理效率牢牢卡住。
哪怕GPU能在毫秒级完成token生成,只要CPU的任务编排、工具执行出现延迟,整个系统的端到端体验就会被无限拉长。
行业终于意识到,在Agentic AI时代,单纯堆砌GPU已经解决不了根本问题。
康奈尔大学研究显示,在五大代表性Agent工作负载中,CPU端的工具处理、逻辑调度、数据预处理环节,占总端到端延迟的比例达到43.8%—90.6%,远高于GPU端的模型推理占比。
在最常用的Haystack RAG场景中,CPU处理甚至占据了总延迟的90%以上,GPU的推理计算仅占不到10%。
当百万级Agent并发运行时,对CPU核心数的需求呈现指数级增长。
云厂商的实测数据显示,同样1万张A100 GPU卡组成的集群,要想将GPU利用率打满,配套的CPU核心数需要从传统的50万颗提升至120万颗。
当算力规模上来之后,问题变成如何调度、分配和提高利用率,这正是CPU和系统层发挥作用的地方。
算力的消耗主体变了,价值标准随之改变
当算力资源极其稀缺时,最重要的是
谁有GPU
IDC的调研数据也显示,即使是头部互联网企业的AI推理集群,GPU平均利用率也长期低于40%,大量中小企业的GPU集群利用率甚至不足15%。
造成这种巨大浪费的核心原因是整个系统的数据流动、任务调度、内存管理能力,跟不上GPU的计算速度。
就像一辆顶级的超跑,在拥堵的城市道路上,根本无法发挥出最高时,而CPU正是这条道路的设计者与交通调度员。
MLPerf的行业基准测试显示,在大模型训练场景中,数据加载、预处理、参数同步的延迟,可占用总训练时间的35%-60%,这直接导致GPU利用率不足40%。
GPU算力的天花板往往是由CPU的性能决定的,这种调度与管理的核心价值,在分布式AI集群中体现得更加明显。
CXL(Compute Express Link)技术的普及,进一步强化了CPU的核心地位。
作为新一代高速互联协议,CXL通过内存池化技术,将分散在不同服务器、不同加速卡上的内存资源,整合成一个统一的共享内存池,彻底打破了传统架构的内存墙瓶颈。
而CPU正是整个CXL内存池的唯一主控单元,负责内存地址的统一映射、缓存一致性的维护、资源的动态分配。
实测数据显示,基于CXL 3.0的内存池化架构,跨节点内存访问延迟从传统NUMA架构的220ns降至90ns,内存带宽利用率从65%提升至92%,缓存未命中率从18%降至6%。
通用算力底座,才是AI泛化的关键
实体行业的AI应用几乎都是
混合负载
场景,金融机构的服务器,既要跑核心交易系统、数据库、风控中间件,又要跑用户画像的向量检索。
制造企业的产线服务器,既要跑工业控制软件、设备管理系统,又要跑产品质检的计算机视觉模型。
政务系统的服务器,既要跑政务服务平台、数据共享系统,又要跑智能问答、公文审核的大模型应用。
这些场景中,用户最核心的诉求,不是单独部署一套AI算力集群,而是在现有的业务系统上,无缝融合AI能力,这正是CPU的核心优势所在。
GPU的架构设计天然面向并行计算,很难同时高效处理数据库、中间件等串行的通用业务负载,强行混合部署只会导致两者的性能都大幅下降。
而CPU的通用架构,天生就能适配各类业务负载与AI负载的混合运行,实现一套硬件、统一运维、统一调度,大幅降低企业的部署成本与运维复杂度。
云厂商的自研CPU,已经在这类场景中验证了巨大的价值。
AWS Graviton4处理器,在搜索、广告、推荐等主流在线AI应用场景中,性能相比前代提升35%-50%,相比同规格的x86实例,性价比提升30%-50%。
目前,全球已有超10万家企业将其核心的在线AI推理业务迁移到Graviton实例上,其中既包括Epic Games这样的互联网企业,也包括SAP、IBM等企业级服务商。
阿里云的倚天710处理器,基于ARM v9架构与SVE2指令集,针对AI推理场景优化后,推理性能最高可提升2倍。
国内的自主可控CPU,更是借助这一趋势,实现了AI场景的快速突破。
与此同时,CPU自身的AI能力已经实现了质的飞跃,彻底打破了
CPU不适合AI
的固有认知。
过去,CPU的AI计算依赖通用核心的矢量运算,性能与GPU差距巨大。
但现在,主流的服务器CPU都已经集成了专门的AI加速单元,通过专用指令集与硬件加速引擎,实现了AI性能的跨越式提升。
CPU为核,GPU为翼,带来的产业变革
①AI原生的CPU架构,将成为下一代服务器芯片的核心竞争点。
过去的CPU设计,核心目标是通用计算性能的提升,AI加速只是附加功能。
未来的CPU设计,会从架构层面就针对AI负载进行原生优化。
CPU的竞争,将从单纯的核数、主频比拼,升级为AI全场景综合能力的较量。
②端云协同的统一算力架构,CPU将成为AI泛化的核心底座。
当下的AI算力,端侧、边缘侧、云侧往往采用不同的架构,模型开发、适配、部署的成本极高。
这也是AWS、阿里云、华为等云厂商,都大力投入自研Arm架构CPU的核心原因。
③在AI原生的CPU赛道上,全球厂商都处于同一起跑线,国内厂商在场景理解、客户需求适配、国产化生态上,有着天然的优势。
鲲鹏、海光等厂商,已经在AI场景实现了技术突破,未来随着AI在千行百业的落地,国产CPU有望从
替代者
,成长为AI算力市场的核心玩家,构建起自主可控的AI算力全栈体系。
④全栈软件生态的竞争,将成为CPU厂商的核心护城河。
CPU的AI性能能不能充分发挥,很大程度上取决于软件生态的完善度,包括对TensorFlow、PyTorch、飞桨等主流AI框架的深度适配。
对主流大模型的量化、压缩优化,对行业场景的算子定制,对开发工具链的完善。
未来,各大CPU厂商都会在软件生态上加大投入,构建从硬件到框架、从模型到场景的全栈AI软件体系,这将成为决定市场格局的关键。
⑤CPU行业的指令集竞争,出现了新的轴线。
x86阵营与Arm阵营,将围绕Agentic工作负载展开新一轮的角逐。
Agent调用的绝大多数工具在x86架构上完成了几十年的优化,这种生态惯性是x86最大的护城河。
Arm阵营的核心竞争力是极致的功耗效率,NVIDIA Vera/Grace、AWS Graviton、Ampere等Arm架构CPU,在同等功耗下能实现更高的并发处理能力,与Agentic工作负载轻线程的特性高度契合。
结尾:
市场的反应,永远是产业变革最真实的注脚。
如今,CPU已经从曾经的标准化商品组件,变成了能显著影响AI系统性能的差异化产品。
AI算力的核心问题已经从性能转向效率,GPU依然是AI的发动机,但CPU和系统层,正在成为方向盘和变速器。
部分资料参考:印科技:《接棒HBM的新卡点!》,半导体行业观察:《算力的新因果:AI Agent时代,被重估的CPU价值与新机遇》,半导体前线:《GPU霸权松动!代理AI发力,CPU迎来高峰?》财联社:《CPU何以站上
算力C位
?》
原文标题 : 深度丨从GPU到系统全栈,AI算力价值重心正向CPU迁移
反馈举报
声明:以上信息仅代表发布者自身观点,并不代表本平台赞同其观点,也不代表本平台对其真实性负责。
大家都在看

广告
评论 0
网友评论仅供其表达个人看法,并不表明平台立场。全部评论
加载失败
总发布:272粉丝:0
相关推荐
- 加载失败
- 加载失败
- 加载失败
- 加载失败
- 加载失败
- 加载失败
- 加载失败
新经济资讯
- 加载失败
- 加载失败
- 加载失败







