OpenAI o3 模型遭质疑?第三方实测分数远低于自测成绩

4月21日讯(编辑 刘蕊)北京时间4月17日凌晨,OpenAI的多模态推理大模型o3与o4-mini重磅上线,这一大模型号称是OpenAI迄今最强、最智能的模型。

然而,研究机构很快发现,o3人工智能模型的开发方和第三方基准测试结果存在明显差异,这引发了人们对该公司透明度和模型测试实践的质疑。

OpenAI测试作弊了?

去年12月,OpenAI在预发布o3时,就强调了该模型在解决困难问题上的能力大幅提升。当时OpenAI声称,该模型可以回答FrontierMath(一组具有挑战性的数学问题)中超过25%的问题。这个分数远远超过了其竞争对手——排名第二的模型只能正确回答大约2%的FrontierMath问题。

OpenAI首席研究官Mark Chen当时在直播中表示:

“今天,所有大模型产品(能解决的FrontierMath问题的数量)的比例都不到2%…我们(在内部)看到,在积极的测试时间计算设置中,我们能够获得超过25%的解题率。”

但第三方测试证明,这个25%的数字很可能并不准确。

美东时间上周五(4月18日),开发“FrontierMath”的研究机构“Epoch AI”公布了“o3”的独立基准测试结果。Epoch发现,o3的得分约为10%,远低于OpenAI声称的最高得分25%。

OpenAI o3 模型遭质疑?第三方实测分数远低于自测成绩

当然,这并不意味着OpenAI一定在撒谎。该公司去年12月发布的基准测试结果显示,其得分的下限与Epoch AI观察到的得分相当。Epoch AI还指出,他们的测试设置可能与OpenAI不同,即他们使用了FrontierMath的更新版本进行评估。

Epoch AI写道:“我们的结果与OpenAI之间的差异可能是由于OpenAI使用更强大的内部框架进行评估,使用更多的测试时间(计算),或者因为这些结果运行在FrontierMath的不同子集上(FrontierMath -2024-11-26中的180个问题vs FrontierMath -2025-02-28-private中的290个问题)。”

根据ARC Prize Foundation(一个测试过o3预发布版本的组织)在X上的一篇文章,公开发布的o3模型和预发布版本“是一个不同的模型……针对聊天/产品使用进行了调优”,这证实了Epoch AI的报告。

“所有正式发布的o3计算层都比我们(之前基准测试)的版本小,”ARC Prize写道,一般来说,计算层越大,获得的基准测试分数也会越高。

基准测试争议已成广泛问题

随着AI模型供应商竞相利用新模型抢占头条和市场份额,在人工智能行业,基准测试“争议”正在成为一种常见现象,

比如最近,埃隆·马斯克的xAI被指控,其最新人工智能模型Grok 3的基准测试图表具有误导性。

本月早些时候,Meta的新一代开源大模型Llama 4也遭遇了作弊质疑,而Meta公司承认,其宣传的基准测试分数所基于的模型版本与提供给开发者的版本不一致。

平台声明:该文观点仅代表作者本人,联合网系信息发布平台。发布者:科创板日报,转转请注明出处:https://www.anesthesia.org.cn/4853.html

(0)
科创板日报的头像科创板日报
上一篇 2025年4月21日 下午3:01
下一篇 2025年4月21日 下午3:01

相关推荐

  • 欧林生物:重组金葡菌疫苗拟2027年量产 吸附破伤风疫苗仍有较大市场空间|直击股东会

    编者按: 为帮助投资者更好了解企业真实发展情况与价值,进一步保护投资者合法权益等,、联合打造《直击股东会》栏目。 《直击股东会》栏目以现场报道的形式,通过在股东会现场直面上市公司董事长等核心管理层,聚焦企业长期战略、重大决策、经营方针等,旨在提升企业资本市场形象,优化投资者关系管理,完善上市公司相关治理与发展等。 本期企业 欧林生物 ▍企业简介 欧林生物是一…

    2025年4月23日
    4400
  • 割草机器人赛道升温!资本助力出海谋变

    割草机器人的战场,已不仅是草坪,更是智能硬件的未来高地。 当全球割草机器人市场迎来爆发式增长,中国玩家正以技术突围与资本加持强势搅动赛道。从宁德时代到欣旺达,再到小鹏汽车旗下星航资本,巨头们争相押注的宝时得,背后是国产供应链的全面崛起。 欧美庭院经济的百亿蓝海中,九号公司、科沃斯等企业面对关税壁垒,正在加速深耕欧洲市场。这场由技术红利与地缘博弈交织的产业变局…

    2025年4月23日
    2700
  • 信号隐现!房地产股大爆发!

    房地产板块大爆发。 A股市场和港股市场房地产板块股票集体大涨,成为上午市场最大亮点之一。 今年以来,房地产市场延续止跌回稳趋势,多方统计数据显示,今年一季度,房地产市场正式迎来了交易规模的企稳信号。同时,土拍热度也在不断上升。 另外,港股互联网和科技板块中,百度集团-SW表现相对亮眼,盘中涨幅一度超过5%。消息面上,百度正式发布文心大模型4.5 Turbo、…

    2025年4月25日
    200
  • 苹果“关税大逃杀”:3月创纪录iPhone从印度空运赴美!

    4月16日讯(编辑 卞纯)据媒体报道,海关数据显示,3月份苹果公司在印度的主要供应商富士康和塔塔电子向美国运送了价值近20亿美元的iPhone手机,创下历史新高。苹果公司空运这些手机以避开美国总统特朗普(当时)即将实施的关税。 据媒体查阅的可公开获取的海关数据,苹果在印度的最大供应商富士康3月份向美国出口了价值13.1亿美元的智能手机,创下单月最高纪录,相当…

    2025年4月16日
    2900
  • 特朗普关税威胁下 韩国将加码支持本土半导体产业

    4月15日讯(编辑 刘蕊)在特朗普关税威胁背景下,本周二,韩国政府宣布,将对该国半导体产业的扶持计划扩大至33万亿韩元(约合人民币1694.92亿元),较去年公布的26万亿韩元(约合人民币1335.39亿元)增加约四分之一。 韩国政府在声明中表示,在当前美国政府政策不确定性日益增加、来自中国竞争对手的竞争日益激烈之际,韩国政府呼吁扩大对本国企业的支持。 根据…

    2025年4月15日
    6400

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信