定制AI芯片在2025年成为芯片行业的主线,博通、英伟达等芯片巨头将展开竞争。
04国产芯片企业在大模型范式转移中赢得后发优势,有望在定制芯片领域取得突破。
05美国政府对中国芯片的管制可能继续收紧,但国产定制AI芯片的发展仍值得期待。
芯片行业的故事正在发生变化。从去年年底博通公开宣告,要用定制AI芯片挑战英伟达以来,这家芯片巨头的市值,至今都没有低于过1万亿美元。
它离英伟达的3万多亿美元还有很远。但只要人工智能的故事能讲下去,定制芯片的故事就能讲下去,博通的故事也就能讲下去。还会有更多芯片公司试图成为下一个博通,包括中国芯片行业。于是,美国政府很可能又追在市场的后面忙着堵漏。这条故事主线年。
博通讲述的定制芯片的逻辑,听上去十分可信且诱人。它符合行业对大模型已经开始范式转移的判断。从去年底开始,越来越多迹象在向市场证明,扩展定律在预训练阶段的边际收益逐步放缓,大模型对算力的需求正在转向训练与推理并重。引领大模型浪潮的伊莱亚喊出了预训练将死;哈萨比斯宣称2025将是AI代理的一年;纳德拉称明年工具、搜索与浏览器市场格局将被AI颠覆;OpenAI至今没有发布GPT-5,反而极力产品化。
训练好比实验室探索,推理类似工厂量产。争夺客户,比拼商业化,要在推理中把训练的钱赚回来,就要把降低算力的总拥有成本视为最核心的考量指标之一。
一种方式是降低模型参数规模。EpochAI就发现大模型参数规模增幅正在变小,尤其是商品化的GPT-4o相对于基础模型GPT-4,规模小了一个数量级;最近微软团队一篇论文也是这么估算的。OpenAI圣诞节前发布的强化微调(RFT)技术,允许客户基于行业数据塑造强大的专家模型,同样降低了参数规模门槛。另一种方式是提升模型内在价值。OpenAI从o1预览版升级到正式版再到o3,证实推理是新的扩展范式。慢思考似乎正在接近当前的AGI基准。但是,它的代价是,任务越复杂、越广泛,消耗的token呈数量级增加。
如果红杉资本对未来AI应用将按成果收费的判断准确,那么,行业会迫切寻找一种能更契合故事逻辑改变后的芯片。它既要保证性能,又要保证利润。它会是继续提升单位成本性能的英伟达GPU与海力士HBM,也会是越来越成熟的定制AI芯片,这是中短期内芯片领域竞争的两条战线。
这就能解释为什么科技巨头一边抢购英伟达芯片,一边加速迭代自研芯片。去年至今,谷歌发布了第六代TPU,Meta发布了第二代MTIA,亚马逊发布了第二代Trainium,微软公开了Maia;没入场的仍在努力,OpenAI正从谷歌挖人,苹果秘密研发首款服务器AI芯片。中国企业字节跳动也多次传出自研5nm芯片。
这也能解释为什么博通是这条故事线下最大的受益者之一。它自身条件最好,市场推测谷歌、Meta、字节跳动、OpenAI与苹果,已经成为它的前五大客户。博通还喊出了公司2027年面对最高900亿美元的可及市场(SAM)。Marvell被视为另一位潜在赢家,亚马逊是它的客户。据推算BBINGAMES官方网站,到2028年,英伟达GPU在推理市场的份额预计将从目前的80%降至50%。
这还解释了为什么去年那么多的新兴芯片企业引发市场关注。Groq的LPU专注于提升自然语言模型的推理速度,而且使用成熟工艺,甚至不依赖于HBM;Cerebras造出了晶圆级的巨型芯片,单芯片集成了4万亿个晶体管,是英伟达B200的20倍;d-Matrix专攻存内计算;Tenstorrent改道RISC-V。不过,它们仍然各有各的问题需要逐步解决。在行业普遍认知中,这类定制芯片往往需要迭代三代,才能达到理想水平。
英伟达显然早就看到了。事实上,去年年中,黄仁勋就明确表态,已经开始着手AI芯片定制业务,还为此成立了新部门。只不过,当时这条消息被市场对下一代GPU不断膨胀的市场预期所遮蔽了。当时,台湾ASIC设计公司世芯科技(AIChip)的总经理沈翔霖还向DIGITIMES评论说,这是一个坏主意,将与英伟达现有产品发生冲突。
去年以来,英伟达向上往云服务扩展,以及横向往定制芯片扩展,都是动了自己客户的蛋糕。也许,英伟达已经看到了未来最大的竞争对手不是博通,是英伟达自己。
定制芯片的重要性还在继续凸显。英伟达根本没有放慢脚步。最新消息是,它正在加速为自己的“第二业务”招兵买马,至少从中国台湾聘用1000名工程师BBINGAMES官方网站。在为微软、谷歌与亚马逊设计定制芯片时,当地从业者积累了丰富经验。如今,包括世芯科技、创意电子(Global Unichip)与智原科技(Faraday)等当地企业都已经严阵以待,抢人大战一触即发。英伟达的积极应战,预示着定制芯片的未来,确定性要比博通的未来更强。
这种确定性也会外溢至中国市场。大模型转向应用,AI芯片转向定制,也相当于为中国指明了“第二选择”。突破先进制程“卡脖子”环节仍然是未来中国芯片行业的主要任务,但随着定制芯片的差异化技术路线逐步验证,中国企业在大模型范式转移中,再次赢得后发优势的机遇期。
亚马逊的Trainium 2,就是现成的启发。半导体分析机构semianalysis认为,NeuronLink是这款定制芯片的关键进步之一。它相当于英伟达的NVLink,通过网络与通信技术创新BBINGAMES官方网站,横向扩展(Scaling Out)集群算力规模,弥补芯片计算密度的不足。中国那些擅长通信技术的芯片企业同样大有可为。此外,Groq与Cerebras的横向扩展,是基于相对成熟的芯片制程的,这对于获取先进制造设备受限的国产芯片行业而言,也是一条新的道路。
国产大模型厂商的努力,让这条道路具备了可行性。诸如DeepSeek等中国企业,已经习惯于在缺少算力的环境下打造性能领先的大模型,给了硅谷以“苦涩的教训”。年底至今,字节跳动与阿里巴巴相继打响新一轮价格战,也意味着技术优化赢得了新的降价空间。国产大模型厂商在开源模型与算法优化上的创新,给国产定制AI芯片留下了相对宽松的设计空间,也给国产芯片制造设备自主留下了追赶的时间窗口。
去年,伯恩斯坦研究公司(Bernstein Research)回顾“中国制造2025”目标,发现中国在设计与制造上的完成度,要好于设备与材料。目前,产能位于中国的芯片企业进口了约占全球1/3的设备,而中国设备企业收入仅占全球的1/30。年中,国家芯片大基金三期成立,注册资本3440亿元,超过前两期总和。市场预期它们将主要投向设备与材料环节。
这种创新的扩展与确定的外溢,又将让美国政府头疼。美国政府对中国芯片“卡脖子”已经至少三次收紧绳索,以拖慢中国人工智能发展速度。去年底,美国将高墙筑到了高带宽内存与制造设备上,以图继续围堵中国获得先进AI算力。与上一轮限制GPU算力密度类似,这次对HBM的限制,涉及内存带宽密度。
但是,EpochAI在审读了那210页文档后无奈宣告,迄今为止的“芯片战”,最多让美国在训练上获得了4年的硬件优势,但在推理硬件上,中国与美国几乎没有差距。目前,这主要是H20仍然合规,鸡肋、但是仍然好用;但很快,国产AI芯片也能赶上来。
该机构判断,未来,中国与美国在训练上的差距不会继续扩大,但也很难缩小;但推理就很难预测,取决于下一轮美国商务部如何修订出口管制规则,以及能在多大程度上控制自己盟友国家的企业。
很有可能,美国的“芯片战”会与英伟达的“商业战”结合起来。去年以来,外媒就证实英伟达暂定名为B20的版存在。但由于监管规则暂不明确,迟迟没有动静。如果它的综合性价比,比国产定制芯片稍高一点,仍然会有市场,并挤压国产芯片的盈利空间。中国四大行业协会已经呼吁谨慎采购美国芯片。
2025年已经到来。市场传言亚马逊Trainium3将在2月底正式定案;3月中旬(17日-21日),英伟达GTC召开;3月底,据信华为昇腾910C开始对外量产交付。我们很快就能看到,定制芯片对游戏规则的改变程度到底如何。