月之暗面发布开源 Kimi K2.5 模型,参数规模达 1 万亿

作者:

CBINEWS

责任编辑:

邹大斌

来源:

电脑商情在线

时间:

2026-01-28 11:20

关键字:

AI MoonShot Kimi 大模型

月之暗面(Moonshot AI)近日发布了开源大模型 Kimi K2.5,并称其在多个基准测试中性能超越 GPT-5.2。

此次发布距离该公司传出以 48 亿美元估值进行新一轮融资的消息仅数日。据报道,月之暗面已于去年 12 月完成了一轮 5 亿美元的独立融资。

Kimi K2.5 基于该公司于去年 11 月初发布的大型语言模型 Kimi K2-Base 开发。后者的一大核心特性是采用了名为 Muon 的算法以加速训练过程。Muon 通过加速大语言模型(LLM)中的隐藏层(即负责处理提示并执行大部分计算的核心模块)来提升整体性能。

据月之暗面介绍,其工程师在 Kimi K2-Base 的基础上,使用了相当于 15 万亿 token 的数据进行进一步训练。该训练数据不仅包含文本,还涵盖多模态文件。因此,Kimi K2.5 在处理图表等多模态内容方面表现优于前代模型。

月之暗面表示,该模型采用 混合专家(Mixture-of-Experts, MoE)架构,总参数量达 1 万亿。这些参数被组织成多个神经网络,每个网络针对不同任务集进行了专门优化。当 Kimi K2.5 接收到用户输入时,并不会激活全部参数,而仅调用最适合生成答案的那个特定神经网络,从而大幅降低硬件资源消耗。

构成 Kimi K2.5 的每个专家神经网络约包含 320 亿参数,并由一个拥有 4 亿参数 的“视觉编码器”提供支持。据称,该编码器负责将用户上传的多模态数据转换为嵌入向量——即一种抽象的数学表示形式,便于 Kimi K2.5 的人工神经元理解和处理。

大语言模型通常使用一种名为“注意力机制”的技术,从可用数据中筛选出与当前任务最相关的信息。月之暗面表示,Kimi K2.5 对注意力机制所依赖的计算过程进行了并行化处理。这种做法能显著提升性能,因为并行计算比串行依次计算要快得多。

Kimi K2.5 提供两种运行模式:标准模式和“思考模式”(Thinking mode),后者可生成更高质量的输出。此外,该模型还具备一项名为 K2.5 Agent Swarm 的能力,可将复杂任务拆解为多个更简单的子步骤,并将每个子步骤分配给独立的 AI 智能体(agent)处理。其内置的编排引擎最多可为单个提示创建并管理 100 个智能体。

K2.5 Agent Swarm 的设计理念与模型的并行化注意力机制类似:各智能体可并发执行子任务,而非依次等待,从而有效缩短响应时间。

月之暗面将 Kimi K2.5 与 GPT-5.2、Claude 4.5 Opus 等其他推理模型在二十多项基准测试中进行了对比。该公司称,其模型在业内最具挑战性的 LLM 评测之一 HLE-Full 上取得了最高分。该评测包含 2,500 道涵盖数学、物理等多个领域的题目。

在大多数其他基准测试中,Kimi K2.5 的得分也与竞品模型相差仅几个百分点,并在多个项目中胜过 GPT-5.2。

目前,月之暗面已将 Kimi K2.5 的代码开源发布在 Hugging Face 平台上。

ToB最前沿

ToB最前沿抖音号

CBI科技在线

地址:北京市朝阳区北三环东路三元桥曙光西里甲1号第三置业A座1508室 商务内容合作QQ:2291221 电话:13391790444或(010)62178877
版权所有:电脑商情信息服务集团 北京赢邦策略咨询有限责任公司
声明:本媒体部分图片、文章来源于网络,版权归原作者所有,我司致力于保护作者版权,如有侵权,请与我司联系删除
京ICP备:2022009079号-3
京公网安备:11010502051901号
ICP证:京B2-20230255