OpenAI o3 模型遭质疑?第三方实测分数远低于自测成绩

4月21日讯(编辑 刘蕊)北京时间4月17日凌晨,OpenAI的多模态推理大模型o3与o4-mini重磅上线,这一大模型号称是OpenAI迄今最强、最智能的模型。

然而,研究机构很快发现,o3人工智能模型的开发方和第三方基准测试结果存在明显差异,这引发了人们对该公司透明度和模型测试实践的质疑。

OpenAI测试作弊了?

去年12月,OpenAI在预发布o3时,就强调了该模型在解决困难问题上的能力大幅提升。当时OpenAI声称,该模型可以回答FrontierMath(一组具有挑战性的数学问题)中超过25%的问题。这个分数远远超过了其竞争对手——排名第二的模型只能正确回答大约2%的FrontierMath问题。

OpenAI首席研究官Mark Chen当时在直播中表示:

“今天,所有大模型产品(能解决的FrontierMath问题的数量)的比例都不到2%…我们(在内部)看到,在积极的测试时间计算设置中,我们能够获得超过25%的解题率。”

但第三方测试证明,这个25%的数字很可能并不准确。

美东时间上周五(4月18日),开发“FrontierMath”的研究机构“Epoch AI”公布了“o3”的独立基准测试结果。Epoch发现,o3的得分约为10%,远低于OpenAI声称的最高得分25%。

OpenAI o3 模型遭质疑?第三方实测分数远低于自测成绩

当然,这并不意味着OpenAI一定在撒谎。该公司去年12月发布的基准测试结果显示,其得分的下限与Epoch AI观察到的得分相当。Epoch AI还指出,他们的测试设置可能与OpenAI不同,即他们使用了FrontierMath的更新版本进行评估。

Epoch AI写道:“我们的结果与OpenAI之间的差异可能是由于OpenAI使用更强大的内部框架进行评估,使用更多的测试时间(计算),或者因为这些结果运行在FrontierMath的不同子集上(FrontierMath -2024-11-26中的180个问题vs FrontierMath -2025-02-28-private中的290个问题)。”

根据ARC Prize Foundation(一个测试过o3预发布版本的组织)在X上的一篇文章,公开发布的o3模型和预发布版本“是一个不同的模型……针对聊天/产品使用进行了调优”,这证实了Epoch AI的报告。

“所有正式发布的o3计算层都比我们(之前基准测试)的版本小,”ARC Prize写道,一般来说,计算层越大,获得的基准测试分数也会越高。

基准测试争议已成广泛问题

随着AI模型供应商竞相利用新模型抢占头条和市场份额,在人工智能行业,基准测试“争议”正在成为一种常见现象,

比如最近,埃隆·马斯克的xAI被指控,其最新人工智能模型Grok 3的基准测试图表具有误导性。

本月早些时候,Meta的新一代开源大模型Llama 4也遭遇了作弊质疑,而Meta公司承认,其宣传的基准测试分数所基于的模型版本与提供给开发者的版本不一致。

平台声明:该文观点仅代表作者本人,联合网系信息发布平台。发布者:科创板日报,转转请注明出处:https://www.anesthesia.org.cn/4853.html

(0)
科创板日报的头像科创板日报
上一篇 2025年4月21日 下午3:01
下一篇 2025年4月21日 下午3:01

相关推荐

  • 财联社创投通:一级市场本周融资总额约37.42亿元 先进制造、医疗健康活跃度居前

    【创投通:一级市场本周融资总额约37.42亿元 先进制造、医疗健康活跃度居前】10日讯,据创投通数据显示,本周(5.3-5.9)国内统计口径内共发生53起投融资事件,已披露的融资总额合计约37.42亿元。从投资事件数量来看,先进制造、医疗健康、汽车出行、新能源、集成电路等领域较活跃;从融资总额来看,汽车出行披露的融资总额最多,约16.10亿元。享道出行完成由…

    2025年5月10日
    1900
  • SensorTower:33家中国厂商入围全球手游发行商4月收入榜TOP100

    【SensorTower:33家中国厂商入围全球手游发行商4月收入榜TOP100】7日讯,SensorTower发布2025年4月中国手游发行商全球收入排行榜。数据显示,4月,共有33家中国厂商入围全球手游发行商收入榜TOP100,合计收入20亿美元,占本期全球TOP100手游发行商收入的38.4%。其中,腾讯、点点互动、网易、米哈游和柠檬微趣占据中国手游发…

    2025年5月7日
    2200
  • 毕得医药2024年净利同比增长7.17% 境外市场成增长引擎

    4月24日讯(特约记者 高青 实习记者 徐叶)近日,CXO公司毕得医药(688073.SH)交出了一份营收与利润双增的年度成绩单。 财报显示,公司全年实现营业收入11.02亿元,同比增长0.93%;归属于母公司股东的净利润1.17亿元,同比增长7.17%。不过,扣除非经常性损益后的净利润为1.04亿元,同比下降15.09%,主要原因是非经常性损益占比达11.…

    2025年4月24日
    5400
  • 【图解中国经济一季报】GDP同比增长5.4% 在全球主要经济体中名列前茅

    4月16日讯,今日上午,国家统计局发布2025年一季度国民经济运行数据。 数据显示: GDP:初步核算,一季度国内生产总值318758亿元,同比增长5.4%,比上年四季度环比增长1.2%。在全球主要经济体中名列前茅。 工业增加值:一季度规模以上工业增加值同比增长6.5%。3月份同比实际增长7.7%。 固定资产投资:一季度全国固定资产投资(不含农户)10317…

    2025年4月16日
    7500
  • Canalys:2025年Q1全球平板电脑出货量同比增长8.5%

    【Canalys:2025年Q1全球平板电脑出货量同比增长8.5%】12日讯,Canalys的最新数据显示,2025年第一季度,全球平板电脑出货量同比增长8.5%,达到3680万台。由于消费市场和教育领域设备更新周期的推动,各区域均实现增长,在政府补贴的支持下,大中华地区在新年期间,消费者需求激增。在美国,关税的不确定性导致平板电脑进口量在1月份飙升,但在关…

    2025年5月12日
    2600

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信