英伟达:并不担心来自谷歌TPU的威胁,尽管传闻Meta有意与谷歌合作
CBINEWS
责任编辑:邹大斌
电脑商情在线
时间:2025-11-26 10:47
英伟达 谷歌 TPU GPU
周二,有报道称,Meta正与谷歌洽谈,计划从2027年起在其自有数据中心部署谷歌TPU。受此消息影响,英伟达股价当日下跌。
对此,英伟达迅速在曾被称为Twitter的社交平台X上作出回应,其新闻室账号发布了一条看似恭维实则暗含贬抑的推文:
“我们为谷歌的成功感到高兴——他们在AI领域取得了巨大进步,我们仍在持续向谷歌供货。英伟达领先整个行业整整一代:它是唯一能在所有计算场景下运行所有AI模型的平台。与专为特定AI框架或功能设计的ASIC(专用集成电路)相比,英伟达在性能、通用性和可互换性方面都更胜一筹。”
实际上,谷歌第七代TPU(代号“Ironwood”)不仅在性能上足以与英伟达Blackwell加速器抗衡,其扩展能力甚至远超后者——英伟达最大支持72颗GPU的机架,而Ironwood TPU可组成包含256至9,216颗芯片的Pod集群。虽然英伟达下一代Vera Rubin加速器速度更快,但谷歌在规模上占据优势。
谷歌在一份声明中表示:“我们正看到市场对定制TPU和英伟达GPU的需求双双加速增长;多年来,我们一直致力于同时支持这两种技术。”——巧妙地避开了有关Meta的敏感话题。
从纸面上看,谷歌TPU若被更广泛采用,确实可能威胁英伟达的利润。但Meta是否真的会(或能否)选择TPU而非现有平台,仍存巨大疑问。
首先,谷歌必须打破惯例,将TPU推向公开市场销售。历史上,TPU仅能通过Google Cloud租赁使用,从未对外出售。
即便谷歌同意向Meta出售芯片,扎克伯格的公司仍将面临严峻的集成挑战。
TPU的部署架构与Meta熟悉的AMD/NVIDIA GPU集群截然不同。Meta通常使用数据包交换机(packet switches)将数百乃至数千颗GPU连接成大规模横向扩展的计算结构;而TPU则通过光电路交换(OCS)技术连接成大型环面网格(toroidal mesh)。
不过,这类设备的工作原理与传统数据包交换机完全不同,往往需要一套全新的编程模型。
更大的障碍在于PyTorch——这是Meta开发的深度学习框架,旨在让机器学习任务无缝运行于CPU和GPU硬件之上。虽然PyTorch可在TPU上运行,但TPU并不原生支持该框架,Meta必须依赖一个名为PyTorch/XLA的转换层。
当然,凭借科技巨头庞大的软件工程师团队,Meta与谷歌完全有能力克服这一技术障碍。但问题是:他们真有必要这么做吗?
如果谈判确如报道所言存在,更合理的解释是:Meta只是在探讨如何针对谷歌TPU优化其Llama系列大模型的推理(inference)性能。
毕竟,模型推理所需的计算资源比训练少一个数量级,且推理任务受益于靠近终端用户——这能显著降低延迟、提升交互体验。
历史上,Meta一直通过Hugging Face等平台向公众开放其Llama系列大语言模型(LLM),用户可在包括谷歌TPU在内的各种加速器上下载并运行。因此,Meta确实需要确保Llama在TPU上表现良好,以推动企业采用。但若目标仅是推理,Meta根本无需自己购买TPU——企业客户可直接从Google Cloud租用TPU来运行Llama即可。
尽管如此,谷歌TPU技术的确正吸引越来越多竞争对手的关注,Anthropic便是其中之一。这家Claude模型开发商过去严重依赖亚马逊AWS的Trainium AI加速器,如今正积极实现多元化。
今年10月,Anthropic宣布计划使用多达100万颗TPU来训练和部署下一代Claude模型。这一转型比从GPU切换要平滑得多——正如我们本月早些时候报道,谷歌TPU与亚马逊Trainium在计算集群中均采用网状拓扑(mesh topology),大幅降低了迁移成本。
但Anthropic并未止步于此。上周,该公司又宣布与微软和英伟达达成战略合作:将采购价值300亿美元的Azure计算资源,并额外签约高达1吉瓦(gigawatt)的算力容量。作为交换,英伟达和微软分别承诺向这家AI初创公司投资100亿和50亿美元。
换句话说,所有AI巨头都在多方下注,与各方结盟。
智库专家
廖天云
Citrix
业务拓展经理
苏彤
创意中国产业联盟秘书长
秘书长
王莉
京仪大气
董事长
孙文凯
人民大学
副院长
乔通
安东石油
总监
