OpenAI o3 模型遭质疑？第三方实测分数远低于自测成绩

科创板日报 • 2025年4月21日下午3:01 • 股票 • 阅读 51

4月21日讯（编辑刘蕊）北京时间4月17日凌晨，OpenAI的多模态推理大模型o3与o4-mini重磅上线，这一大模型号称是OpenAI迄今最强、最智能的模型。

然而，研究机构很快发现，o3人工智能模型的开发方和第三方基准测试结果存在明显差异，这引发了人们对该公司透明度和模型测试实践的质疑。

OpenAI测试作弊了？

去年12月，OpenAI在预发布o3时，就强调了该模型在解决困难问题上的能力大幅提升。当时OpenAI声称，该模型可以回答FrontierMath（一组具有挑战性的数学问题）中超过25%的问题。这个分数远远超过了其竞争对手——排名第二的模型只能正确回答大约2%的FrontierMath问题。

OpenAI首席研究官Mark Chen当时在直播中表示：

“今天，所有大模型产品（能解决的FrontierMath问题的数量）的比例都不到2%…我们（在内部）看到，在积极的测试时间计算设置中，我们能够获得超过25%的解题率。”

但第三方测试证明，这个25%的数字很可能并不准确。

美东时间上周五（4月18日），开发“FrontierMath”的研究机构“Epoch AI”公布了“o3”的独立基准测试结果。Epoch发现，o3的得分约为10%，远低于OpenAI声称的最高得分25%。

当然，这并不意味着OpenAI一定在撒谎。该公司去年12月发布的基准测试结果显示，其得分的下限与Epoch AI观察到的得分相当。Epoch AI还指出，他们的测试设置可能与OpenAI不同，即他们使用了FrontierMath的更新版本进行评估。

Epoch AI写道：“我们的结果与OpenAI之间的差异可能是由于OpenAI使用更强大的内部框架进行评估，使用更多的测试时间（计算），或者因为这些结果运行在FrontierMath的不同子集上（FrontierMath -2024-11-26中的180个问题vs FrontierMath -2025-02-28-private中的290个问题）。”

根据ARC Prize Foundation（一个测试过o3预发布版本的组织）在X上的一篇文章，公开发布的o3模型和预发布版本“是一个不同的模型……针对聊天/产品使用进行了调优”，这证实了Epoch AI的报告。

“所有正式发布的o3计算层都比我们（之前基准测试）的版本小，”ARC Prize写道，一般来说，计算层越大，获得的基准测试分数也会越高。

基准测试争议已成广泛问题

随着AI模型供应商竞相利用新模型抢占头条和市场份额，在人工智能行业，基准测试“争议”正在成为一种常见现象，

比如最近，埃隆·马斯克的xAI被指控，其最新人工智能模型Grok 3的基准测试图表具有误导性。

本月早些时候，Meta的新一代开源大模型Llama 4也遭遇了作弊质疑，而Meta公司承认，其宣传的基准测试分数所基于的模型版本与提供给开发者的版本不一致。

平台声明：该文观点仅代表作者本人，联合网系信息发布平台。发布者：科创板日报，转转请注明出处：https://www.anesthesia.org.cn/4853.html

OpenAI o3 模型遭质疑？第三方实测分数远低于自测成绩

发表回复

联系我们

400-800-8888

OpenAI o3 模型遭质疑？第三方实测分数远低于自测成绩

相关推荐

财联社创投通：一级市场本周融资总额约37.42亿元 先进制造、医疗健康活跃度居前

SensorTower：33家中国厂商入围全球手游发行商4月收入榜TOP100

毕得医药2024年净利同比增长7.17% 境外市场成增长引擎

【图解中国经济一季报】GDP同比增长5.4% 在全球主要经济体中名列前茅

Canalys：2025年Q1全球平板电脑出货量同比增长8.5%

发表回复

联系我们

400-800-8888

财联社创投通：一级市场本周融资总额约37.42亿元先进制造、医疗健康活跃度居前