丝袜美腿 自拍偷拍 国产 OpenAI o3 模子遭质疑?第三方实测分数远低于自测收获
北京期间4月17日凌晨,OpenAI的多模态推理大模子o3与o4-mini重磅上线丝袜美腿 自拍偷拍 国产,这一大模子堪称是OpenAI迄今最强、最智能的模子。
相干词,询查机构很快发现,o3东说念主工智能模子的设备方和第三方基准测试恶果存在彰着相反,这激励了东说念主们对该公司透明度和模子测试实行的质疑。
OpenAI测试舞弊了?
旧年12月,OpenAI在预发布o3时,就强调了该模子在经管辗转问题上的智商大幅升迁。那时OpenAI宣称,该模子不错回复FrontierMath(一组具有挑战性的数知识题)中跨越25%的问题。这个分数远远跨越了其竞争敌手——名交替二的模子只可正确回复大要2%的FrontierMath问题。
OpenAI首席询查官Mark Chen那时在直播中暗意:
“今天,扫数大模子居品(能经管的FrontierMath问题的数目)的比例皆不到2%…咱们(在里面)看到,在积极的测试期间野心建筑中,咱们大致取得跨越25%的解题率。”
但第三方测试解说,这个25%的数字很可能并不准确。
好意思东期间上周五(4月18日),设备“FrontierMath”的询查机构“Epoch AI”公布了“o3”的落寞基准测试恶果。Epoch发现,o3的得分约为10%,远低于OpenAI宣称的最高得分25%。

虽然,这并不料味着OpenAI一定在撒谎。该公司旧年12月发布的基准测试恶果显露,其得分的下限与Epoch AI不雅察到的得分极端。Epoch AI还指出,他们的测试建筑可能与OpenAI不同,即他们使用了FrontierMath的更新版块进行评估。
Epoch AI写说念:“咱们的恶果与OpenAI之间的相反可能是由于OpenAI使用更弘大的里面框架进行评估,使用更多的测试期间(野心),或者因为这些恶果启动在FrontierMath的不同子集上(FrontierMath -2024-11-26中的180个问题vs FrontierMath -2025-02-28-private中的290个问题)。”
把柄ARC Prize Foundation(一个测试过o3预发布版块的组织)在X上的一篇著述,公设备布的o3模子和预发布版块“是一个不同的模子……针对聊天/居品使用进行了调优”,这阐发了Epoch AI的叙述。
“扫数认真发布的o3野心层皆比咱们(之前基准测试)的版块小,”ARC Prize写说念,一般来说,野心层越大,取得的基准测试分数也会越高。
基准测试争议已成普遍问题
食品加工在线跟着AI模子供应商竞相诳骗新模子霸占头条和阛阓份额,在东说念主工智能行业,基准测试“争议”正在成为一种常见景象,
比如最近,埃隆·马斯克的xAI被指控,其最新东说念主工智能模子Grok 3的基准测试图表具有误导性。
本月早些期间,Meta的新一代开源大模子Llama 4也遭受了舞弊质疑,而Meta公司承认丝袜美腿 自拍偷拍 国产,其宣传的基准测试分数所基于的模子版块与提供给设备者的版块不一致。