文章作者、来源:0x9999in1,ME News
自2022年底生成式AI爆发以来,全球科技产业进入了以大模型为核心的新一轮军备竞赛。在这场竞赛中,算力成为了决定成败的底层基础设施。英伟达(Nvidia)凭借其在通用图形处理器(GPU)领域的长期积累以及CUDA软件生态的绝对统治力,攫取了这波AI浪潮中最丰厚的利润。然而,高达70%以上的毛利率以及供不应求的产能,使得全球云服务提供商(CSP)和AI科技巨头陷入了“为英伟达打工”的算力焦虑。
基于此背景,「ME News 智库」观察到,全球头部科技巨头正在加速将战略重心向底层硬件延伸,掀起了一场史无前例的“自研AI芯片”浪潮。从北美的谷歌、亚马逊、微软、Meta,到中国的华为、百度、阿里、字节跳动,大厂造芯已经从早期的“试水”演变为关乎企业生死存亡的“核心战略”。本文将深度剖析全球大厂自研AI芯片的布局现状,从经济学和底层技术逻辑出发,论证为何重金投入自研芯片是科技巨头的必然选择,并对其面临的挑战与未来算力格局的终局进行推演。
当前,全球大厂的自研AI芯片主要集中在云端(数据中心),分为训练(Training)和推理(Inference)两大场景。不同于英伟达追求通用性的路线,大厂多采用专用集成电路(ASIC)架构,以牺牲部分通用性为代价,换取在特定内部业务场景下的极致能效比。
北美四大云巨头(四大Hyperscalers)在自研芯片的步伐上存在时间差,但如今已全面入局,形成了对英伟达算力依赖的“对冲池”。
谷歌(Google):自研路线的绝对先驱与标杆
谷歌是全球最早意识到深度学习对底层硬件提出全新要求的巨头。早在2015年,谷歌便在内部部署了第一代张量处理单元(TPU)。历经近十年的迭代,如今的TPU已经发展至第六代(Trillium)。
谷歌的优势在于其闭环的生态系统:从底层的TPU硬件,到中间层的XLA编译器和JAX框架,再到上层的Gemini大模型。这种端到端的软硬协同,使得谷歌在不依赖英伟达GPU集群的情况下,依然能够训练出全球顶尖的多模态大模型。TPU v5p及Trillium在互连带宽和高带宽内存(HBM)上的显著提升,证明了谷歌在超大规模集群(Cluster)组网能力上已具备与英伟达NVLink抗衡的实力。
亚马逊(AWS):以成本和客户选择权为核心
AWS的造芯历史始于2015年收购Annapurna Labs。在AI领域,AWS布局了Trainium(主攻训练)和Inferentia(主攻推理)两条产品线。AWS的战略极具实用主义色彩:其并不试图用自研芯片完全替代GPU,而是为AWS的云租户提供高性价比的算力选项。据AWS官方数据,使用Inferentia2芯片运行大模型推理,其每瓦性能比同类Amazon EC2实例高出50%。
微软(Microsoft)与Meta:从被动买单到主动破局
微软和Meta是此前英伟达H100/A100的最大买家。为了支撑OpenAI的训练以及自身的Copilot业务,微软于2023年末正式发布了自研AI加速芯片Azure Maia 100。该芯片采用台积电5nm工艺,专为云端训练和推理定制。
Meta的路径则高度贴合其自身业务。其推出的MTIA(Meta Training and Inference Accelerator)芯片最初专为深度学习推荐模型(DLRM)设计,用于优化Facebook和Instagram的广告推送。随着Llama系列开源大模型的爆发,新一代MTIA芯片大幅增强了对生成式AI推理的支持,旨在降低百亿次调用带来的天价推理成本。
与北美大厂寻求“降本增效”的逻辑不同,中国科技巨头在面临美国高端AI芯片出口管制的背景下,自研AI芯片更具备“底线防御”和“供应链安全”的战略色彩。
华为:国产算力的中流砥柱
华为昇腾(Ascend)系列是目前国内唯一能够在超大规模集群训练上与英伟达A100/H20平替的产品。昇腾910B采用了达芬奇架构(Da Vinci),通过CANN(计算客观网络神经架构)层与MindSpore等国产框架深度绑定。目前,国内超过半数的头部大模型(如科大讯飞星火、智谱AI等)均已完成或正在进行基于昇腾算力底座的适配与训练。
互联网大厂的务实路线:百度、阿里与字节跳动
百度的昆仑芯是国内最早落地的互联网大厂自研AI芯片之一,目前已迭代至第三代,全面支撑文心一言大模型的推理与部分微调工作。阿里平头哥半导体则推出了含光800,主要聚焦于阿里内部的电商搜索、图像识别等高并发推理场景。字节跳动作为全球拥有最庞大推荐算法算力需求的企业,虽然入局较晚,但正积极通过与台积电、博通等芯片设计和代工巨头合作,定制专用的AI ASIC芯片,以应对旗下豆包大模型及TikTok/抖音庞大的日常推理消耗。
表1:全球主要科技巨头AI芯片布局概览
研发一款先进制程(如5nm/3nm)的AI芯片,流片成本动辄数千万美元,且需要养活规模庞大的芯片设计与软件验证团队。面对如此高昂的门槛,科技巨头依然前赴后继,「ME News 智库」认为,这背后是由清晰的商业逻辑、供应链博弈和底层技术规律共同决定的。
当前生成式AI的商业模式正面临严重的“倒挂”风险。训练一个万亿参数的GPT-4级别大模型,需要数万张H100 GPU运行数月,仅硬件资本支出(CapEx)就高达数亿美元。而在模型部署后,持续的推理(Inference)成本更是无底洞。
英伟达之所以拥有超过万亿美元的市值,本质上是向整个AI行业征收了高昂的“算力税”。通用GPU需要兼顾图形渲染(Graphics)、双精度浮点运算(FP64)等功能,这些功能占用了大量的芯片晶体管面积,但在纯粹的深度学习(主要依赖FP16、FP8甚至INT8)中毫无用处。大厂购买GPU,实际上是在为这些未被利用的“暗硅(Dark Silicon)”买单。
通过自研定制化ASIC芯片,大厂可以剔除所有冗余功能,将每一寸硅片面积都用于张量计算和内存带宽优化。据业界评估,在特定的大规模推理场景下,自研ASIC的单次计算成本(TCO计算)仅为通用GPU的1/3到1/5。对于Meta、字节跳动这类每天需要进行数千亿次推理调用的企业而言,一旦自研芯片规模化部署,每年节省的运营支出(OpEx)将是以十亿美元计的。投入几亿美元研发芯片,以换取数十亿美元的成本节约,这是一笔极具确定性的经济账。
除了成本,供应链的脆弱性是悬在科技巨头头顶的达摩克利斯之剑。英伟达在产能分配上拥有绝对的话语权,H100/B200等核心显卡的交货周期往往长达数月。没有算力,大厂的AI业务进展就会停滞。
研发自有芯片,本质上是提升面对英伟达时的“议价能力”(Bargaining Power)。即使大厂无法在最前沿的模型训练上完全摆脱英伟达,但在推理侧和推荐系统上使用自研芯片,就能大幅减少对外部通用GPU的绝对依赖,从而在采购谈判中获得更多筹码。
对于中国企业而言,自研芯片更是不可阻挡的必选项。受制于美国商务部BIS的出口管制规则,国内企业无法获取算力密度和互连带宽最高的商用芯片。通过自研并结合国内或非美系半导体代工体系,构建自主可控的算力基座,是确保国家AI主权和企业数据中心业务延续的唯一出路。
在摩尔定律逐渐放缓的今天,单纯依靠芯片制程工艺(如从5nm到3nm再到2nm)带来的性能提升边际效应正在递减。未来的算力突破,越来越依赖于“软件定义硬件”和“软硬协同设计(Hardware-Software Co-design)”。
通用GPU必须兼容成千上万种不同的应用和算法,因此其架构必须中庸。而大厂自研芯片,完全可以根据自身核心大模型的数据类型、稀疏性特征、通信模式进行定向优化。
例如,如果大厂的业务重心是超长上下文(Long-context)的大语言模型推理,其自研芯片就可以在设计时极致放大片上SRAM容量或HBM内存带宽,而非盲目追求算力峰值(FLOPS)。这种将自身的AI算法“刻录”进底层硅片的能力,能够打造出竞争对手无法轻易复制的性能体验,从而构建深厚的护城河。
尽管自研AI芯片的战略价值不言而喻,但这绝非一条坦途。盲目造芯不仅可能导致巨额资金打水漂,还可能拖累自身AI业务的迭代速度。
英伟达最可怕的壁垒并非硬件性能,而是其经营了近二十年的CUDA软件生态。目前,全球绝大多数AI开发者、顶尖的AI算法库(如PyTorch的底层算子)都深度绑定在CUDA之上。
大厂自研芯片面临的最大困境是“好造不好用”。即使流片成功,如果开发者需要花费数月时间去重写底层代码适配新芯片的编译器,这颗芯片在内部就无法推广。
为了破局,业界正在发起针对CUDA的“包抄”。一方面,各大厂在积极研发自家的编译器(如谷歌的XLA);另一方面,OpenAI推出的Triton开源编程语言被寄予厚望。Triton旨在提供一种比CUDA更高抽象层级的语言,开发者只需编写一次代码,Triton编译器就能将其转化为适应不同底层硬件(如Nvidia GPU、AMD GPU、乃至各家ASIC)的机器码。一旦Triton或类似的中间层生态成熟,CUDA的锁定期将被大幅削弱,大厂自研芯片的迁移成本将显著降低。
芯片行业是一个极其强调“规模效应”的赢家通吃市场。英伟达能够将其庞大的研发成本分摊到全球数以百万计的GPU出货量上。而大厂的自研芯片通常只供内部或自身云租户使用,出货量可能只有十万或数十万量级。
如果无法实现足够的规模,自研芯片的单颗分摊成本将远高于直接采购通用GPU。因此,自研AI芯片注定只能是“少数巨头玩得起的勇敢者游戏”。对于中长尾的科技企业而言,试图自研底层AI芯片不仅在财务上不可持续,在技术迭代上也根本跟不上英伟达等专业芯片厂商的节奏,更明智的选择是拥抱现成的算力云服务。
表2:商业通用GPU与大厂自研ASIC芯片优劣势对比
综合上述分析,「ME News 智库」对未来3-5年的全球AI算力格局做出以下研判:
英伟达在未来相当长一段时间内,仍将是探索前沿AI模型边界(Frontier Models)不可替代的王者。因为在极其复杂的超大规模参数训练中,算法仍存在高度的不确定性,这种阶段极其需要GPU的通用性和CUDA生态的纠错与灵活性。
然而,在模型成熟后的推理(Inference)阶段,以及大规模互联网应用(如短视频推荐、搜索引擎改写)的日常部署中,通用GPU的高成本将迫使企业全面转向自研定制化ASIC。未来的数据中心将是异构的:少数极其昂贵的GPU集群用于“炼丹”(训练下一代大模型),而海量的自研ASIC集群负责承接每天亿万次的C端用户调用。
如同今天的大型数据中心自己设计服务器主板和冷却系统一样,深入芯片底层进行定制,将成为顶级云厂商(CSP)的标准配置。自研芯片的能力将成为云厂商向客户兜售AI服务时的核心竞争力。没有能力自研底层硬件的云服务商,将在未来的价格战中彻底丧失毛利空间,沦为纯粹的“机房二房东”。
总结而言,大厂自研AI芯片并非要彻底“杀死”英伟达,而是一场争夺AI时代底层利润分配权的战争。通过在推理端和内部核心业务上实现算力独立,科技巨头们正在重新夺回对技术命脉和商业利润的控制权。在这场软硬协同的深刻变革中,算力不再仅仅是可以购买的商品,而是企业最核心的战略资产。


