微软建设横跨大陆的数据中心超级集群
CBINEWS
责任编辑:邹大斌
电脑商情在线
时间:2025-11-13 15:11
微软 数据中心 AI 训练 集群
微软认为,下一代人工智能模型将使用高达数十万亿甚至百万亿级别的参数。为了训练这些模型,公司不仅在建设更大、更高效的数据中心,还开始利用高速网络将相距数百乃至数千英里的不同设施连接起来。
这一多数据中心集群的首个节点已于10月上线,连接了位于美国威斯康星州Mount Pleasant的数据中心园区与佐治亚州亚特兰大的一处设施。
这家软件巨头的目标是,最终能够像如今在多台服务器之间分配高性能计算和AI工作负载一样,在多个数据中心之间横向扩展AI任务。
微软Azure首席技术官马克·鲁西诺维奇(Mark Russinovich)在一份声明中表示:“要提升AI的能力,就需要越来越庞大的基础设施来训练模型。如今训练这些模型所需的基础设施规模,已远不止一个或两个数据中心,而是需要多个数据中心协同。”
这些数据中心也并非普通设施。它们属于微软称之为“Fairwater”集群的新一代“比特谷仓”(bit barns)系列,是该系列中的首批。这些设施为两层结构,采用芯片直连式液冷技术,并且据微软称,“几乎不消耗水资源”。
最终,微软设想这个数据中心网络将扩展至数十万块异构GPU,根据具体工作负载和可用性灵活调配。在其亚特兰大数据中心,微软将部署英伟达的GB200 NVL72机架系统。每套系统可承载超过120千瓦的设备,提供高达720 petaFLOPS的稀疏FP8算力用于模型训练,并配备13TB的HBM3e高带宽内存。
分散负载,优化选址
通过互联数据中心,微软不仅能训练规模更大的模型,还能更灵活地选择设施所在地——这意味着可以选择土地成本低廉、气候凉爽,以及——或许最关键的是——电力供应充足的地区。
微软并未透露其用于连接这两座相距约1000公里(直线距离)数据中心的具体技术,但目前市场上已有多种可行方案。
上个月,思科发布了Cisco 8223路由器,带宽高达51.2 Tbps,专为连接最远1000公里范围内的AI数据中心而设计。博通也在今年8月推出了Jericho 4芯片,目标同样是实现类似距离和带宽的互联。
与此同时,英伟达凭借AI热潮已悄然成为全球最大的网络设备供应商之一。该公司近期预告了其Spectrum-XGS网络交换机,而由加密矿企转型为GPU租赁服务商的Coreweave已确认成为早期采用者。
鉴于微软与英伟达长期紧密的合作关系,Spectrum-XGS无疑是一个强有力的候选方案。
众所周知,微软是少数几家在高性能计算环境中全面采用英伟达InfiniBand网络协议(而非以太网或亚马逊AWS的EFA等专有数据传输架构)的超大规模云服务商之一。
尽管微软在数据中心互联方面拥有丰富选择,但如何在不因带宽或延迟造成性能损失的前提下有效分配AI工作负载,仍是研究人员关注的重点课题。
好消息是,相关研究已取得显著进展:今年早些时候,谷歌DeepMind团队曾发表报告指出,通过在训练过程中压缩模型并智能调度数据中心间的通信,许多挑战是可以被克服的。
