开云(中国)kaiyun网页版登录入口可能因顺利使用「代码器具」而获取了奖励-开云(中国)kaiyun网页版登录入口

@ 开云(中国)kaiyun网页版登录入口可能因顺利使用「代码器具」而获取了奖励-开云(中国)kaiyun网页版登录入口

你的位置：开云(中国)kaiyun网页版登录入口 > 娱乐 >

开云(中国)kaiyun网页版登录入口可能因顺利使用「代码器具」而获取了奖励-开云(中国)kaiyun网页版登录入口

发布日期：2025-05-24 06:15 点击次数：163

剪辑：KingHZ 桃子开云(中国)kaiyun网页版登录入口

【新智元导读】o3编码直逼全球TOP 200东说念主类选手，却存在一个致命问题：幻觉率高达33%，是o1的两倍。Ai2科学家直指，RL过度优化成硬伤。

满血o3更强了，却也更爱「脱口而出」了。

OpenAI本领证实称，o3和o4-mini「幻觉率」远高于此前的推理模子，甚而杰出了传统模子GPT-4o。

证据PersonQA基准测试，o3在33%的问题修起中产生了幻觉，险些是o1（16%）的2倍。

而o4-mini的阐扬愈加厄运，幻觉率高达48%。

本领证实：https://cdn.openai.com/pdf/2221c875-02dc-4789-800b-e7758f3722c1/o3-and-o4-mini-system-card.pdf

甚而，有网友片纸只字地指出，「o3对编写和开拓超1000行代码的神志极其不利，幻觉率极高，且实施领导智商绝顶差」。

不管是在Cursor，还是Windsurf中，o3编码幻觉问题显耀。

要知说念，o3和o4-mini在Codeforces中收获均超2700分，在全球东说念主类选手中位列TOP 200，被称为OpenAI有史以来最好的编码模子。

它们考据了，Scaling强化学习依旧有用。

o3查验算力是o1的十倍

但为何跟着模子参数范畴Scaling，幻觉问题反而加重？

o3幻觉率至高，是o1两倍

往常，每一代新模子的迭代，每每会在减少幻觉方面有所跳跃，但o3和o4-mini却突破了这一端正。

更令东说念主担忧的是，OpenAI目下也无法扫数解释这一表象的原因。

本领证实中，计划团队坦言，「还有需要进一步计划来弄清，模子生成更多断言的问题」。

提前拿到o3内测阅历后，非谋利AI计划机构Transluce的测试，进一步印证了这一问题。

他们发现，o3在修起问题时，更倾向于「臆造」其推理过程中的某些步履。

比如，o3宣称它在一台2021年款的MacBook Pro上运行代码，甚而宣称是在ChatGPT以外复制的代码。

何况，这种情况出了71次。但是，事实是o3根柢无法实施这样的操作。

前OpenAI计划员Neil Chowdhury示意，o系列模子使用的强化学习算法，可能是问题的根源。

RL可能会放大传统后查验经过中每每能缓解，但无法扫数撤消的问题。

强化学习「背锅」，编造根源找到了

起原，必须承认的是，幻觉问题并非是o系列模子特有，而是谈话模子的精深挑战。

而对于大批谈话模子产生幻觉的原因，不过乎有这样几点：

1 预查验模子的幻觉倾向

预查验模子通过最大化查验数据汉文句的概率进行学习。但是查验数据可能包含污蔑、冷漠事实或不细则性，这导致模子在生成内容时容易「编造」信息。尽管后查验不错缓解这一问题，但无法扫数撤消。

2 谄谀用户

RLHF查验可能激勉模子会投合用户，幸免反驳用户的假定。

3 数据散布偏移

测试场景可能与查验数据散布不一致。

尽管这些问题是谈话模子常见的失败模式，相较于GPT-4o，o系列模子的幻觉问题更为特出。

这背后，还有一些稀疏的要素。

RL推理查验反作用

行动推理模子，o系列选用了基于强化学习（Outcome-based RL）查验，专为科罚复杂数常识题、编写测试代码而设想。

天然这种步履普及了模子在特定任务上的阐扬，但也变成模子幻觉率飙升。

若是查验的奖励函数只眷注正确谜底，模子在面对无法科罚问题时，莫得「能源」去承认我方的局限。

相背，它可能聘请输出「最好臆测」，以期赶巧正确。何况，这种战略在查验中未受到处分，从而加重了幻觉。

另外，器具使用的泛化问题，也不行忽视。

o系列模子在查验中，可能因顺利使用「代码器具」而获取了奖励。即使在禁用器具的场景中，模子可能会「联想」使用器具来组织推理过程。

这种步履可能在某些推理任务中提高准确性，并在查验中被强化，但也导致模虚伪构器具使用的场景。

真帮凶：CoT被丢弃

o系模子的另一个稀疏设想是「想维链」（Chain-of-Thought）机制。

在生成谜底前，模子泄漏过CoT进行想考，但这一过程对用户不行见，且在后续对话中被丢弃。

事实上，它们可能在CoT中生成了看似合理但不准确的修起。比如，因为莫得真是一语气，o1曾生成一个了臆造的URL。

由于CoT在后续对话中被丢弃，模子无法拜访生成前一轮谜底的推理过程。

当你追问前一轮修起的细节时，模子只可基于现时高低文「臆测」一个合理的解释。

这种信息缺失，很难幸免o3等不去编造信息。

o3很好，但过度优化是硬伤

在Ai2科学家Nathan Lambert最新一篇分析长文中，不异印证了这一问题：

强化学习给o3带回首了「过度优化」，何况比以往更诡异。

在职何关系查询中，o3能够使用多法子器具。

这让ChatGPT的产物料理濒临更大挑战：即便用户未触发搜索开关，模子也会自主联网搜索。

但这同期标记着谈话模子应用开启了新纪元。

比如，Nathan Lambert径直问o3：「你能帮我找到阿谁弥远以来被RL计划东说念主员使用的，对于摩托艇过度优化游戏的gif吗？可能像是海潮落空器之类的？」

往常，他至少需要15分钟，才高手动找到这个。

目下o3径直提供了准确的下载一语气，而Gemini等AI则逊色好多。

与o3精彩互动：险些坐窝找到需要的GIF

多个基准的测试收获，讲明o3绝顶出色。OpenAI觉得o3在许多方面比o1更迢遥。

o3是不时彭胀RL查验预备资源时的产物，这也普及了推理时的预备智商。

但这些新的推理模子在智能上「孤峰特出」，在有些方面并莫得见效。

这意味着有些交互令东说念主惊叹，嗅觉像是与AI互动的全新口头，但对于一些GPT-4或Claude 3.5早已熟练掌抓的日常任务，o3等新推理模子却透顶失败了。

这波及到强化学习中的「过度优化」（over-optimization）问题。

RL过度优化，o3更严重

OpenAI o3模子展现了全新的推理步履模式，但过度优化是硬伤。

过度优化（Over-optimization）是强化学习（RL）范围的经典问题。

无论是传统强化学习、催生出ChatGPT的东说念主类响应强化学习（RLHF），还是现时新式推理模子中出现的情况，都呈现出稀疏的阐扬体式和不同影响。

当优化器的智商杰出它所依赖的环境或奖励函数时，就会发生过度优化。

在查验过程中，优化器会钻间隙，产生特殊或负面的结果。

Ai2的科学家举了一个例子。

在Mujoco仿真环境中，评估深度强化学习算法时，发生了过度优化：

「半猎豹」（half-cheetah）模子本该学习奔走，却用一语气侧手翻最大化了前进速率。

o3阐扬出新式过度优化步履。

这与它改变查验口头密切关系。

起原的推理模子主要查验见地是确保数学和代码的正确性，而o3在此基础上新增了器具调用与信息处明智商。

正如OpenAI官方博客所述：

操纵强化学习，咱们还查验了这两款模子去使用器具——不仅教育它们奈何使用器具，还让它们学会判断何时该使用器具。

它们证据预期结果来部署器具的智商，让它们在洞开式任务中愈加高效——特别是在波及视觉推理和多法子使命流的情况中。

这些查验中的绝大大批子任务都是可考据的。

这种新的查验步履如实普及了模子的实用性，但只对往常用户风俗使用的任务。

但目下还无律例模化地「建立」模子在查验过程中产生的歪邪谈话抒发。

这种新的过度优化并不会使模子的结果变差，它仅仅让模子在谈话抒发和自我解释方面变得更差。

o3的一些奇怪阐扬让东说念主嗅觉模子还没扫数锻练，比如在编程环境中使用了无效的非ASCII连字符的这个例子。

越来越多的用户兴趣：o3到底发生了什么？

Karpathy当年评价初代推理模子时的名言：

当模子在想维链中运转不说东说念主话时，你就知说念强化学习查验到位了。

如今模子输出的这些歪邪幻觉，实质上即是步履版的「不说东说念主话」。

o3的步履组件使其比Claude 3.7间隙百出的代码更有计划价值，概况也相对不易变成实验毁伤。

奖励黑客，AI学会钻空子

METR发现，o3是在自主任务中能孤苦操作最久的模子，但也防御到它有倾向于「删改」它们的评分。

听起来是不是很练习？

事实上，奖励机制被钻空子（reward hacking）的例子比比都是！

来自OpenAI最近论文的奖励黑客膺惩例子：

操纵滑动检验

论文一语气：https://openai.com/index/chain-of-thought-monitoring/

从科学角度来看，这如实曲直常兴致且引东说念主深想的——

模子到底在学习什么？

与此同期，议论到安全问题，全球对AI模子的粗鄙部署保持警惕，就很有道理。

但目下看来，全球还莫得看到过于令东说念主担忧的情况，更多的是结果低下和一些繁杂的例子。

总结一下强化学习（RL）不同阶段中，看到的三种过度优化类型：

结果期间的RL：过度优化发生是因为环境脆弱，任务不现实。

RLHF期间：过度优化发生是因为奖励函数设想厄运。

可考据奖励强化学习（RLVR2）期间：过度优化发生，使模子变得超等有用，但也变得愈加奇怪。（还有更多尚未发现的反作用）

这种过度优化如实是一个需要科罚的问题，因为谈话模子的可读性是其一个进犯上风。

Nathan Lambert服气通过更复杂的查验过程，这个问题是不错缓解的。

但OpenAI急于尽快推出模子，科罚这个问题需要更多期间。

据报说念开云(中国)kaiyun网页版登录入口，OpenAI的部分测试东说念主员，只好不到一周的期间对行将推出的进犯产物进行安全检验。

开云(中国)kaiyun网页版登录入口可能因顺利使用「代码器具」而获取了奖励-开云(中国)kaiyun网页版 登录入口

开云(中国)kaiyun网页版登录入口可能因顺利使用「代码器具」而获取了奖励-开云(中国)kaiyun网页版登录入口