OpenAI发布GPT-5.2，与谷歌Gemini 3争夺AI模型霸主地位

作者： CBINEWS

责任编辑：邹大斌

来源：电脑商情在线

时间： 2025-12-15 10:27

关键字： OpenAI ，AI ，GPT ，大模型

OpenAI已正式推出GPT-5.2，宣称其在完成现实世界商业任务方面的能力相较11月发布的GPT-5.1有显著提升，达到了“专家级”水准。公司表示，这款新模型提供即时、思考和专业三种性能层级，在多项基准测试中均取得重大进步。

根据OpenAI自研的GDPval基准测试——该测试衡量模型在44项不同商业任务中达到人类专家同等标准的能力——GPT-5.2在70.9%的测试中表现达到或超过人类用户，而GPT-5.1在即时版、思考版和专业版中的这一比例仅为38.8%。

为说明这些进步，OpenAI举例称：GPT-5.2 Thinking能完整地对一份人力规划电子表格进行格式化；而GPT-5.1虽然也能正确生成相同的表格内容，但输出结果较为基础，缺乏格式设置。

OpenAI表示：“我们设计GPT-5.2是为了为用户释放更大的经济价值；它在创建电子表格、制作演示文稿、编写代码、感知图像、理解长上下文、使用工具以及处理复杂的多步骤项目方面都更加出色。”

此外，GPT-5.2在其他关键基准测试中也展现出不同程度的提升，包括ARC-AGI-1/ARC-AGI-2（通用问题解决能力）以及SWE-Bench Pro/SWE-Bench Verified（真实世界软件开发任务）。

公司指出：“对于日常专业用途而言，这意味着该模型能更可靠地调试生产环境代码、实现功能需求、重构大型代码库，并端到端地交付修复方案，且所需人工干预更少。”

GPT-5.2目前已开始向ChatGPT用户分阶段推出，首先面向付费订阅用户，订阅价格维持不变。通过API调用时，GPT-5.2的定价为每百万输入token 1.75美元，每百万输出token 14美元，并对缓存输入提供90%的折扣。尽管价格高于GPT-5.1，但OpenAI声称，由于GPT-5.2在token使用上效率更高，“要达到相同质量水平的实际成本反而更低”。

红色警报

对OpenAI而言，如此迅速地在上一版本之后推出新模型，标志着其GPT-5系列开发节奏明显加快。今年12月初，CEO Sam Altman曾向全体员工发出“红色警报”紧急备忘录，警告若不能快速推进GPT-5研发，公司将面临被谷歌日益强大的Gemini 3模型超越的风险。

此后局势似乎趋于稳定。阿尔特曼本周在接受CNBC采访时表示，Gemini的进步没有最初担忧的那么显著，并预计“红色警报”状态将在1月结束。然而值得注意的是，此次网络公告中并未直接将GPT-5.2与Gemini 3进行性能对比。据称，在一场单独的媒体简报会上，仅提供了有限的比较数据。

西门子首席AI分析师Maria Sukhareva对OpenAI所使用的基准测试方法提出了质疑：“GPT-5.2声称在GDPVal上胜出，但这是OpenAI自己为自家模型设计的基准。从技术上讲，OpenAI完全可以针对这44项任务微调模型，却在其他所有任务上彻底失败。”她指出，“本质上，GPT-5.2公布的这些数字毫无意义——因为我们根本看不到他们用什么数据训练了模型。GPT-5.2依然存在此前所有模型的同样问题。”她对GPT-5.2基准测试的深入分析可在其Substack专栏中查阅。

电商服务平台Sell The Trend的CEO Rachid ‘Rush’ Wehbi在真实场景中测试了GPT-5.2。他表示：“GPT-5.2在保持长时间逻辑连贯性方面表现好得多，即使面对复杂的多层上下文也不会‘崩溃’。对企业而言，这一点远比在某个可能无关紧要的基准上取得微小进步重要得多。”

他补充道：“基准测试固然可以证明某种进步，但无法告诉你模型在现实世界中是否真正可靠。GPT-5.2是一次前进，但企业级AI仍处于发展过程中。”

AI素养教育公司Human Voice Media创始人Bob Hutchins认为：“迄今为止，企业在使用AI时最大的挫败感往往来自最后那20%——比如格式调整、约束条件、任务交接等细节。GPT-5.2在这方面确实有所进步。”他建议企业用户：“忽略发布时的喧嚣，开展严谨的试用。GPT-5.2是一个有意义的进展——它虽未完全弥合承诺与实践之间的差距，但确实缩小了这一差距。”

例如，智能体AI公司Vectara的“幻觉评估模型”的测试显示，尽管GPT-5.2在减少幻觉方面有所改善，但仍落后于部分竞争对手。

Vectara开发者关系负责人Ofer Mendelevitch评论道：“OpenAI在降低幻觉率方面仍有很长的路要走。GPT-5.2-low-thinking是目前GPT家族中表现最好的，在我们的排行榜上位列第33位，幻觉率为8.4%。但值得注意的是，ChatGPT 5.2明显落后于DeepSeek V3.2——后者排名第23位，幻觉率仅为6.3%。作为对比，我们在测试中发现Gemini 3的‘有依据幻觉率’为13.6%，而Grok 4.1则高达17.8%。”

OpenAI发布GPT-5.2，与谷歌Gemini 3争夺AI模型霸主地位

精彩专题

智库专家