首页能源头条推荐资讯详情

深度丨从GPU到系统全栈，AI算力价值重心正向CPU迁移

2026-03-30 17:32

发布者：冬天的蝉

来源：冬天的蝉

标签：AI算力CPU

前言：

在过去三年里，AI算力叙事几乎被单一逻辑主导，GPU即算力，算力即GPU。

但当AI从模型竞赛进入系统竞赛，算力价值正在发生一场更深层的结构性转移。

算力的价值重心正在从GPU芯片本身，向CPU+系统层迁移。

CPU回归C位，从配角到调度中枢

Agentic AI的出现，彻底颠覆了AI的工作模式。

一个典型的Agent任务，往往包含数十次网络搜索、API调用、代码执行、文档解析与结果编排，这些工作负载的特性，早已超出了GPU的并行优势范畴。

在Agent的工作流中，GPU依然负责核心的token生成，而CPU承担起了

让token真正发挥作用

的重任。

这意味着，用户感知到的AI响应速度与使用体验，不再由GPU的算力上限决定，而是被CPU的处理效率牢牢卡住。

哪怕GPU能在毫秒级完成token生成，只要CPU的任务编排、工具执行出现延迟，整个系统的端到端体验就会被无限拉长。

行业终于意识到，在Agentic AI时代，单纯堆砌GPU已经解决不了根本问题。

康奈尔大学研究显示，在五大代表性Agent工作负载中，CPU端的工具处理、逻辑调度、数据预处理环节，占总端到端延迟的比例达到43.8%—90.6%，远高于GPU端的模型推理占比。

在最常用的Haystack RAG场景中，CPU处理甚至占据了总延迟的90%以上，GPU的推理计算仅占不到10%。

当百万级Agent并发运行时，对CPU核心数的需求呈现指数级增长。

云厂商的实测数据显示，同样1万张A100 GPU卡组成的集群，要想将GPU利用率打满，配套的CPU核心数需要从传统的50万颗提升至120万颗。

当算力规模上来之后，问题变成如何调度、分配和提高利用率，这正是CPU和系统层发挥作用的地方。

算力的消耗主体变了，价值标准随之改变

当算力资源极其稀缺时，最重要的是

谁有GPU

IDC的调研数据也显示，即使是头部互联网企业的AI推理集群，GPU平均利用率也长期低于40%，大量中小企业的GPU集群利用率甚至不足15%。

造成这种巨大浪费的核心原因是整个系统的数据流动、任务调度、内存管理能力，跟不上GPU的计算速度。

就像一辆顶级的超跑，在拥堵的城市道路上，根本无法发挥出最高时，而CPU正是这条道路的设计者与交通调度员。

MLPerf的行业基准测试显示，在大模型训练场景中，数据加载、预处理、参数同步的延迟，可占用总训练时间的35%-60%，这直接导致GPU利用率不足40%。

GPU算力的天花板往往是由CPU的性能决定的，这种调度与管理的核心价值，在分布式AI集群中体现得更加明显。

CXL（Compute Express Link）技术的普及，进一步强化了CPU的核心地位。

作为新一代高速互联协议，CXL通过内存池化技术，将分散在不同服务器、不同加速卡上的内存资源，整合成一个统一的共享内存池，彻底打破了传统架构的内存墙瓶颈。

而CPU正是整个CXL内存池的唯一主控单元，负责内存地址的统一映射、缓存一致性的维护、资源的动态分配。

实测数据显示，基于CXL 3.0的内存池化架构，跨节点内存访问延迟从传统NUMA架构的220ns降至90ns，内存带宽利用率从65%提升至92%，缓存未命中率从18%降至6%。

通用算力底座，才是AI泛化的关键

实体行业的AI应用几乎都是

混合负载

场景，金融机构的服务器，既要跑核心交易系统、数据库、风控中间件，又要跑用户画像的向量检索。

制造企业的产线服务器，既要跑工业控制软件、设备管理系统，又要跑产品质检的计算机视觉模型。

政务系统的服务器，既要跑政务服务平台、数据共享系统，又要跑智能问答、公文审核的大模型应用。

这些场景中，用户最核心的诉求，不是单独部署一套AI算力集群，而是在现有的业务系统上，无缝融合AI能力，这正是CPU的核心优势所在。

GPU的架构设计天然面向并行计算，很难同时高效处理数据库、中间件等串行的通用业务负载，强行混合部署只会导致两者的性能都大幅下降。

而CPU的通用架构，天生就能适配各类业务负载与AI负载的混合运行，实现一套硬件、统一运维、统一调度，大幅降低企业的部署成本与运维复杂度。

云厂商的自研CPU，已经在这类场景中验证了巨大的价值。

AWS Graviton4处理器，在搜索、广告、推荐等主流在线AI应用场景中，性能相比前代提升35%-50%，相比同规格的x86实例，性价比提升30%-50%。

目前，全球已有超10万家企业将其核心的在线AI推理业务迁移到Graviton实例上，其中既包括Epic Games这样的互联网企业，也包括SAP、IBM等企业级服务商。

阿里云的倚天710处理器，基于ARM v9架构与SVE2指令集，针对AI推理场景优化后，推理性能最高可提升2倍。

国内的自主可控CPU，更是借助这一趋势，实现了AI场景的快速突破。

与此同时，CPU自身的AI能力已经实现了质的飞跃，彻底打破了

CPU不适合AI

的固有认知。

过去，CPU的AI计算依赖通用核心的矢量运算，性能与GPU差距巨大。

但现在，主流的服务器CPU都已经集成了专门的AI加速单元，通过专用指令集与硬件加速引擎，实现了AI性能的跨越式提升。

CPU为核，GPU为翼，带来的产业变革

①AI原生的CPU架构，将成为下一代服务器芯片的核心竞争点。

过去的CPU设计，核心目标是通用计算性能的提升，AI加速只是附加功能。

未来的CPU设计，会从架构层面就针对AI负载进行原生优化。

CPU的竞争，将从单纯的核数、主频比拼，升级为AI全场景综合能力的较量。

②端云协同的统一算力架构，CPU将成为AI泛化的核心底座。

当下的AI算力，端侧、边缘侧、云侧往往采用不同的架构，模型开发、适配、部署的成本极高。

这也是AWS、阿里云、华为等云厂商，都大力投入自研Arm架构CPU的核心原因。

③在AI原生的CPU赛道上，全球厂商都处于同一起跑线，国内厂商在场景理解、客户需求适配、国产化生态上，有着天然的优势。

鲲鹏、海光等厂商，已经在AI场景实现了技术突破，未来随着AI在千行百业的落地，国产CPU有望从

替代者

，成长为AI算力市场的核心玩家，构建起自主可控的AI算力全栈体系。

④全栈软件生态的竞争，将成为CPU厂商的核心护城河。

CPU的AI性能能不能充分发挥，很大程度上取决于软件生态的完善度，包括对TensorFlow、PyTorch、飞桨等主流AI框架的深度适配。

对主流大模型的量化、压缩优化，对行业场景的算子定制，对开发工具链的完善。

未来，各大CPU厂商都会在软件生态上加大投入，构建从硬件到框架、从模型到场景的全栈AI软件体系，这将成为决定市场格局的关键。

⑤CPU行业的指令集竞争，出现了新的轴线。

x86阵营与Arm阵营，将围绕Agentic工作负载展开新一轮的角逐。

Agent调用的绝大多数工具在x86架构上完成了几十年的优化，这种生态惯性是x86最大的护城河。

Arm阵营的核心竞争力是极致的功耗效率，NVIDIA Vera/Grace、AWS Graviton、Ampere等Arm架构CPU，在同等功耗下能实现更高的并发处理能力，与Agentic工作负载轻线程的特性高度契合。

结尾：

市场的反应，永远是产业变革最真实的注脚。

如今，CPU已经从曾经的标准化商品组件，变成了能显著影响AI系统性能的差异化产品。

AI算力的核心问题已经从性能转向效率，GPU依然是AI的发动机，但CPU和系统层，正在成为方向盘和变速器。

部分资料参考：印科技：《接棒HBM的新卡点！》，半导体行业观察：《算力的新因果：AI Agent时代，被重估的CPU价值与新机遇》，半导体前线：《GPU霸权松动！代理AI发力，CPU迎来高峰？》财联社：《CPU何以站上

算力C位

？》

原文标题 : 深度丨从GPU到系统全栈，AI算力价值重心正向CPU迁移

反馈举报

声明：以上信息仅代表发布者自身观点，并不代表本平台赞同其观点，也不代表本平台对其真实性负责。

网友评论仅供其表达个人看法，并不表明平台立场。

全部评论

加载更多

加载失败

冬天的蝉

总发布：272粉丝：0

深度丨从GPU到系统全栈，AI算力价值重心正向CPU迁移

大家都在看

相关推荐