月之暗面发布开源 Kimi K2.5 模型，参数规模达 1 万亿

作者：

CBINEWS

责任编辑：

邹大斌

来源：

电脑商情在线

时间：

2026-01-28 11:20

关键字：

AI MoonShot Kimi 大模型

月之暗面（Moonshot AI）近日发布了开源大模型 Kimi K2.5，并称其在多个基准测试中性能超越 GPT-5.2。

此次发布距离该公司传出以 48 亿美元估值进行新一轮融资的消息仅数日。据报道，月之暗面已于去年 12 月完成了一轮 5 亿美元的独立融资。

Kimi K2.5 基于该公司于去年 11 月初发布的大型语言模型 Kimi K2-Base 开发。后者的一大核心特性是采用了名为 Muon 的算法以加速训练过程。Muon 通过加速大语言模型（LLM）中的隐藏层（即负责处理提示并执行大部分计算的核心模块）来提升整体性能。

据月之暗面介绍，其工程师在 Kimi K2-Base 的基础上，使用了相当于 15 万亿 token 的数据进行进一步训练。该训练数据不仅包含文本，还涵盖多模态文件。因此，Kimi K2.5 在处理图表等多模态内容方面表现优于前代模型。

月之暗面表示，该模型采用混合专家（Mixture-of-Experts, MoE）架构，总参数量达 1 万亿。这些参数被组织成多个神经网络，每个网络针对不同任务集进行了专门优化。当 Kimi K2.5 接收到用户输入时，并不会激活全部参数，而仅调用最适合生成答案的那个特定神经网络，从而大幅降低硬件资源消耗。

构成 Kimi K2.5 的每个专家神经网络约包含 320 亿参数，并由一个拥有 4 亿参数的“视觉编码器”提供支持。据称，该编码器负责将用户上传的多模态数据转换为嵌入向量——即一种抽象的数学表示形式，便于 Kimi K2.5 的人工神经元理解和处理。

大语言模型通常使用一种名为“注意力机制”的技术，从可用数据中筛选出与当前任务最相关的信息。月之暗面表示，Kimi K2.5 对注意力机制所依赖的计算过程进行了并行化处理。这种做法能显著提升性能，因为并行计算比串行依次计算要快得多。

Kimi K2.5 提供两种运行模式：标准模式和“思考模式”（Thinking mode），后者可生成更高质量的输出。此外，该模型还具备一项名为 K2.5 Agent Swarm 的能力，可将复杂任务拆解为多个更简单的子步骤，并将每个子步骤分配给独立的 AI 智能体（agent）处理。其内置的编排引擎最多可为单个提示创建并管理 100 个智能体。

K2.5 Agent Swarm 的设计理念与模型的并行化注意力机制类似：各智能体可并发执行子任务，而非依次等待，从而有效缩短响应时间。

月之暗面将 Kimi K2.5 与 GPT-5.2、Claude 4.5 Opus 等其他推理模型在二十多项基准测试中进行了对比。该公司称，其模型在业内最具挑战性的 LLM 评测之一 HLE-Full 上取得了最高分。该评测包含 2,500 道涵盖数学、物理等多个领域的题目。

在大多数其他基准测试中，Kimi K2.5 的得分也与竞品模型相差仅几个百分点，并在多个项目中胜过 GPT-5.2。

目前，月之暗面已将 Kimi K2.5 的代码开源发布在 Hugging Face 平台上。