OpenAI o3 模型遭质疑?第三方实测分数远低于自测成绩

4月21日讯(编辑 刘蕊)北京时间4月17日凌晨,OpenAI的多模态推理大模型o3与o4-mini重磅上线,这一大模型号称是OpenAI迄今最强、最智能的模型。

然而,研究机构很快发现,o3人工智能模型的开发方和第三方基准测试结果存在明显差异,这引发了人们对该公司透明度和模型测试实践的质疑。

OpenAI测试作弊了?

去年12月,OpenAI在预发布o3时,就强调了该模型在解决困难问题上的能力大幅提升。当时OpenAI声称,该模型可以回答FrontierMath(一组具有挑战性的数学问题)中超过25%的问题。这个分数远远超过了其竞争对手——排名第二的模型只能正确回答大约2%的FrontierMath问题。

OpenAI首席研究官Mark Chen当时在直播中表示:

“今天,所有大模型产品(能解决的FrontierMath问题的数量)的比例都不到2%…我们(在内部)看到,在积极的测试时间计算设置中,我们能够获得超过25%的解题率。”

但第三方测试证明,这个25%的数字很可能并不准确。

美东时间上周五(4月18日),开发“FrontierMath”的研究机构“Epoch AI”公布了“o3”的独立基准测试结果。Epoch发现,o3的得分约为10%,远低于OpenAI声称的最高得分25%。

OpenAI o3 模型遭质疑?第三方实测分数远低于自测成绩

当然,这并不意味着OpenAI一定在撒谎。该公司去年12月发布的基准测试结果显示,其得分的下限与Epoch AI观察到的得分相当。Epoch AI还指出,他们的测试设置可能与OpenAI不同,即他们使用了FrontierMath的更新版本进行评估。

Epoch AI写道:“我们的结果与OpenAI之间的差异可能是由于OpenAI使用更强大的内部框架进行评估,使用更多的测试时间(计算),或者因为这些结果运行在FrontierMath的不同子集上(FrontierMath -2024-11-26中的180个问题vs FrontierMath -2025-02-28-private中的290个问题)。”

根据ARC Prize Foundation(一个测试过o3预发布版本的组织)在X上的一篇文章,公开发布的o3模型和预发布版本“是一个不同的模型……针对聊天/产品使用进行了调优”,这证实了Epoch AI的报告。

“所有正式发布的o3计算层都比我们(之前基准测试)的版本小,”ARC Prize写道,一般来说,计算层越大,获得的基准测试分数也会越高。

基准测试争议已成广泛问题

随着AI模型供应商竞相利用新模型抢占头条和市场份额,在人工智能行业,基准测试“争议”正在成为一种常见现象,

比如最近,埃隆·马斯克的xAI被指控,其最新人工智能模型Grok 3的基准测试图表具有误导性。

本月早些时候,Meta的新一代开源大模型Llama 4也遭遇了作弊质疑,而Meta公司承认,其宣传的基准测试分数所基于的模型版本与提供给开发者的版本不一致。

平台声明:该文观点仅代表作者本人,联合网系信息发布平台。发布者:科创板日报,转转请注明出处:https://www.anesthesia.org.cn/4853.html

(0)
科创板日报的头像科创板日报
上一篇 2025年4月21日 下午3:01
下一篇 2025年4月21日 下午3:01

相关推荐

  • 科创50成分股Q1业绩透视:32家企业营收、净利双增 半导体公司业绩亮眼

    5月3日讯(记者 吴旭光) 随着2025年一季报披露完毕,科创板上市公司均已交出“成绩单”。 其中,科创50成分股公司涵盖科创板市值大、流动性好的50家企业,截至今年4月30日,除中芯国际外,科创50成分股均已披露2025年一季报,合计实现营业收入1245.23亿元,实现净利润16.17亿元。 通过统计其中49家科创板上市公司的营收、净利润、研发费用、分红等…

    2025年5月3日
    21100
  • 盈利能力排行榜:这个行业两个指标大幅提升,创新药股霸榜毛利率榜,酒业龙头扎堆ROE榜

    导读 评估企业盈利能力,除了看营收和净利润的绝对值外,更需要关注企业的资源转化效率与市场竞争力,即股东和债权人投入公司的资源,能否转化为可持续的收益。对于投资者而言,越来越多的价值投资者将净资产收益率、总资产报酬率等作为选择投资标的的重要指标。证券时报·推出盈利能力排行榜,以供读者参考。 创新药股霸榜毛利率排行榜 据统计,从申万一级行业来看,剔除金融行业(银…

    2025年5月2日
    5500
  • 香港股市,突发!

    今天(5月19日)早上,恒生科技指数低开低走,开盘不久后,跌幅扩大至2%,恒指跌超1%。其中,阿里巴巴快速跳水达4.7%,在较大程度上带动了恒生科技走弱。那么,这背后到底发生了什么? 从消息面上看,外围又传不利消息。首先,《纽约时报》引述消息人士报道,美国白宫及国会官员在过去数个月来一直审查苹果与阿里巴巴的AI合作计划。其次,周五,穆迪评级将美国主权信用评级…

    2025年5月19日
    1300
  • 厦钨新能:间接控股股东福建冶金拟重组

    【厦钨新能:间接控股股东福建冶金拟重组】23日讯,厦钨新能(688778.SH)公告称,公司收到间接控股股东福建省冶金(控股)有限责任公司通知,根据福建省国资委关于重组组建福建省工业控股集团有限公司的通知,拟组建福建省工业控股集团有限公司作为省管企业,将福建省国资委直接持有的福建冶金80%股权注入省工控集团,福建冶金作为省工控集团的子企业。该事项对公司经营活…

    2025年5月23日
    600
  • 具身智能产业化升级:从人形概念到任务执行 核心或在于构建这一能力

    5月10日讯(记者 唐植潇) 当前,具身智能正从“人形想象”向“任务执行系统”的语义与工程转向。 在近日举行的Tech World大会上,联想发布“超级智能体”矩阵,涵盖个人、企业与城市三个层级,配套推出AI PC、车载平台、推理引擎与机器人智算平台 RH1。 联想车计算创新管理总监孙炳川在论坛上表示,RH1平台面向的是“泛机器人”的智能部署需求,目标是以强…

    2025年5月10日
    1100

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信