OpenAI发布GPT-5.2,与谷歌Gemini 3争夺AI模型霸主地位

作者:

CBINEWS

责任编辑:

邹大斌

来源:

电脑商情在线

时间:

2025-12-15 10:27

关键字:

OpenAI GPT AI 大模型

OpenAI已正式推出GPT-5.2,宣称其在完成现实世界商业任务方面的能力相较11月发布的GPT-5.1有显著提升,达到了“专家级”水准。公司表示,这款新模型提供即时、思考和专业三种性能层级,在多项基准测试中均取得重大进步。

根据OpenAI自研的GDPval基准测试——该测试衡量模型在44项不同商业任务中达到人类专家同等标准的能力——GPT-5.2在70.9%的测试中表现达到或超过人类用户,而GPT-5.1在即时版、思考版和专业版中的这一比例仅为38.8%。

为说明这些进步,OpenAI举例称:GPT-5.2 Thinking能完整地对一份人力规划电子表格进行格式化;而GPT-5.1虽然也能正确生成相同的表格内容,但输出结果较为基础,缺乏格式设置。

OpenAI表示:“我们设计GPT-5.2是为了为用户释放更大的经济价值;它在创建电子表格、制作演示文稿、编写代码、感知图像、理解长上下文、使用工具以及处理复杂的多步骤项目方面都更加出色。”

此外,GPT-5.2在其他关键基准测试中也展现出不同程度的提升,包括ARC-AGI-1/ARC-AGI-2(通用问题解决能力)以及SWE-Bench Pro/SWE-Bench Verified(真实世界软件开发任务)。

公司指出:“对于日常专业用途而言,这意味着该模型能更可靠地调试生产环境代码、实现功能需求、重构大型代码库,并端到端地交付修复方案,且所需人工干预更少。”

GPT-5.2目前已开始向ChatGPT用户分阶段推出,首先面向付费订阅用户,订阅价格维持不变。通过API调用时,GPT-5.2的定价为每百万输入token 1.75美元,每百万输出token 14美元,并对缓存输入提供90%的折扣。尽管价格高于GPT-5.1,但OpenAI声称,由于GPT-5.2在token使用上效率更高,“要达到相同质量水平的实际成本反而更低”。

红色警报

对OpenAI而言,如此迅速地在上一版本之后推出新模型,标志着其GPT-5系列开发节奏明显加快。今年12月初,CEO Sam Altman曾向全体员工发出“红色警报”紧急备忘录,警告若不能快速推进GPT-5研发,公司将面临被谷歌日益强大的Gemini 3模型超越的风险。

此后局势似乎趋于稳定。阿尔特曼本周在接受CNBC采访时表示,Gemini的进步没有最初担忧的那么显著,并预计“红色警报”状态将在1月结束。然而值得注意的是,此次网络公告中并未直接将GPT-5.2与Gemini 3进行性能对比。据称,在一场单独的媒体简报会上,仅提供了有限的比较数据。

西门子首席AI分析师Maria Sukhareva对OpenAI所使用的基准测试方法提出了质疑:“GPT-5.2声称在GDPVal上胜出,但这是OpenAI自己为自家模型设计的基准。从技术上讲,OpenAI完全可以针对这44项任务微调模型,却在其他所有任务上彻底失败。”她指出,“本质上,GPT-5.2公布的这些数字毫无意义——因为我们根本看不到他们用什么数据训练了模型。GPT-5.2依然存在此前所有模型的同样问题。”她对GPT-5.2基准测试的深入分析可在其Substack专栏中查阅。

电商服务平台Sell The Trend的CEO Rachid ‘Rush’ Wehbi在真实场景中测试了GPT-5.2。他表示:“GPT-5.2在保持长时间逻辑连贯性方面表现好得多,即使面对复杂的多层上下文也不会‘崩溃’。对企业而言,这一点远比在某个可能无关紧要的基准上取得微小进步重要得多。”

他补充道:“基准测试固然可以证明某种进步,但无法告诉你模型在现实世界中是否真正可靠。GPT-5.2是一次前进,但企业级AI仍处于发展过程中。”

AI素养教育公司Human Voice Media创始人Bob Hutchins认为:“迄今为止,企业在使用AI时最大的挫败感往往来自最后那20%——比如格式调整、约束条件、任务交接等细节。GPT-5.2在这方面确实有所进步。”他建议企业用户:“忽略发布时的喧嚣,开展严谨的试用。GPT-5.2是一个有意义的进展——它虽未完全弥合承诺与实践之间的差距,但确实缩小了这一差距。”

例如,智能体AI公司Vectara的“幻觉评估模型”的测试显示,尽管GPT-5.2在减少幻觉方面有所改善,但仍落后于部分竞争对手。

Vectara开发者关系负责人Ofer Mendelevitch评论道:“OpenAI在降低幻觉率方面仍有很长的路要走。GPT-5.2-low-thinking是目前GPT家族中表现最好的,在我们的排行榜上位列第33位,幻觉率为8.4%。但值得注意的是,ChatGPT 5.2明显落后于DeepSeek V3.2——后者排名第23位,幻觉率仅为6.3%。作为对比,我们在测试中发现Gemini 3的‘有依据幻觉率’为13.6%,而Grok 4.1则高达17.8%。”

ToB最前沿

ToB最前沿抖音号

CBI科技在线

地址:北京市朝阳区北三环东路三元桥曙光西里甲1号第三置业A座1508室 商务内容合作QQ:2291221 电话:13391790444或(010)62178877
版权所有:电脑商情信息服务集团 北京赢邦策略咨询有限责任公司
声明:本媒体部分图片、文章来源于网络,版权归原作者所有,我司致力于保护作者版权,如有侵权,请与我司联系删除
京ICP备:2022009079号-3
京公网安备:11010502051901号
ICP证:京B2-20230255