

作家先容: 南京大学智能科学与时间学院博士生甘想远为本文第一作家;南京大学高阳教授为本文趋附者;上海东说念主工智能实验室孟林建后生磋议员和南京大学霍静副教授为本文通信作家。
以 DeepSeek-R1、OpenAI o1 为代表的大型推理模子,凭借长想维链的「想考」才能在数学、代码等任务上大放异彩。但想考是有代价的:冗长、反复的推理经由带来了强大的推理支出与蔓延,这等于广受平和的「过度想考」(Overthinking)问题。一个当然的搞定想路是训练羼杂推理模子:让模子字据问题难度,自动决定是「三想此后行」(thinking 形状)如故「无谓婉言」(non-thinking 形状),并使用强化学习(RL)训练模子掌捏这种才能。
然则,这套看似合理的奖励经营,却埋下了一个经典的隐患:奖励诈欺(Reward Hacking)。模子很快学会了「钻空子」—— 名义上输出非想考形状的体式标记,履行里却照样进行长篇想考,既靠想考拿到了正确谜底,又骗取了非想考形状的特地奖励。
为了搞定这一问题,来自南京大学、上海东说念主工智能实验室和中国出动九天磋议院的磋议团队提议了Thinking-Based Non-Thinking(TNT):不依赖奋斗的 SFT,仅应用想考形状恢复中「谜底部分」的长度信息,为每个问题动态设定非想考形状的 token 上限,就将奖励诈欺的发生概率压到了 10% 以下,同期在五个数学基准上完毕了准确率与着力的最优量度。
现在,该论文已被当然话语处理顶级会议 ACL 2026 Main Conference 接收。

论文解析:https://arxiv.org/abs/2601.04805
代码解析:https://github.com/SiyuanGan/Thinking-Based_Non-thinking
布景先容:羼杂推理模子与 RL 训练范式
咱们先来转头一下羼杂推理模子的基本设定。
给定一个以特殊 token 收尾的输入领导,推理模子的恢复发轫是想考部分 —— 包含箝制探索、反想与自我考证的长想维链; 标记想考为止;后来 则是最终的解答(solution)部分,只包含正确的解题门径与谜底。沿用先前使命的商定,若想考部分为空,则该恢复被判定为非想考形状,不然为想考形状。在 RL 训练中,为了饱读吹模子在才能允许时优先选拔高效的非想考形状,正确的非想考恢复会被赋予比正确的想考恢复更高的奖励。
动机:一个被低估的奖励诈欺问题
问题刚巧出在「更高的奖励」上。由于形状判定仅依赖第一个 token 这种名义信号,模子完满不错先输出 伪装成非想考形状,随后的内容却照样反复推演,以致再次生成 隔断符 —— 靠真正的想考得到正确谜底,却领走了非想考形状的高额奖励。

奖励诈欺问题示例。模子生成的首个 token 为 ,被分类为 non-thinking 形状,但恢复内容显著具有 thinking 形状特征(如使用 "Wait"、"Alternatively" 等要津词),组成了典型的奖励诈欺行径。
这一问题的严重性超出设想。著作实测发现,未处理奖励诈欺的 RL 措施在 AIME24 上,被判定为「非想考形状」的恢复平均 token 用量竟高达 10845,与想考形状的 11976 险些不相高下 —— 所谓的「非想考」已名存实一火,通盘训练事实上依然坍塌。
针对该问题,现存决策约莫有两条路,但各有硬伤:其一是引入 SFT 来固定模子两种形状的输出行,但 SFT 经营支出极其奋斗;更糟的是,专业赛事推荐平台SFT 还会带来显赫的性能退化,先前使命的 SFT 模子在 AIME24 上准确率仅约 10%。其二是为非想考形状设定最大 token 上限,超限即视为诈欺,但现存使命对所有这个词问题施加协调的上限,这在逻辑上是行欠亨的:浮浅问题(如「1+1 等于几」)即便用长想维链反复考证,其 token 数也可能远低于复杂 AIME 题目普通作答的长度。
措施:
用想考形状的「谜底」
标定非想考形状的「尺子」
云开体育2026世界杯中国官网入口
图 1:TNT 措施概览。
破局的要津洞见特地优雅:想考形状恢复中 之后的解答部分,本人就不含想考 —— 而这恰好就曲直想考形状的界说。换言之,想考形状恢复自带一份「该问题的谜底普通应该写多长」的免费标尺。TNT 恰是应用这少量,为每个问题动态设定非想考形状的 token 上限。




整套措施基于 GRPO 进行训练,无需任何 SFT,无需修改模子结构或 tokenizer,而且与 Dr. GRPO、DAPO、GSPO 乃至经典 PPO 等算法自然兼容,是一个即插即用的奖励层面修正。
实验考证:准确率与着力的双赢
著作以 DeepSeek-R1-Distill-Qwen-1.5B/7B 和 DeepScaleR-1.5B 为基座模子进行了实验的考证。
更少的 token,更高的准确率。在 1.5B 模子上,TNT 比拟基座模子将平均 token 用量削减 46.2%,平均准确率反而升迁 4.1 个百分点,高出一起同类措施建树。

不同羼杂推理模子训练措施在数学基准上的平均准确率与 token 用量对比。

各模子在 non-thinking 形状恢复中出现 thinking 关系动词的概率。
奖励诈欺被有用破损。著作统计了非想考形状恢复中「Wait」、「Alternatively」等想考类动词的出现概率:未接洽该问题的 AutoThink 概率最高,接受协调上限的 AdaptThink 也显赫偏高,而 TNT 在所有这个词测试集上均低于 10%,仅次于付出了奋斗 SFT 代价的措施。
模子学会了「看菜下饭」。TNT 的非想考形状占比与任务难度呈领悟的负关系:在 AIME24/25 这类珍摄上险些全程想考(占比仅 1.7%/0.8%),在相对浮浅的 AMC23 上则有近 30% 的问题胜仗作答,完毕了基于难度的自主形状选拔。
基座越强,上风越大。在 DeepScaleR-1.5B 与 7B 模子上,TNT 的 TE 折柳达到 0.70 与 0.79,大幅高出次优措施的 0.54 与 0.67;在 7B 上更是同期拿下最高平均准确率(54.2%)与最低 token 用量。此外,TNT 在与 CoT 压缩措施的对比中全面胜出,并在 GPQA Diamond 这一漫步外基准上赢得最优着力,展现了细腻的泛化性。
总结和瞻望
一言以蔽之,这篇论文直面了羼杂推理模子 RL 训练中一个具体而致命的失效形状,奖励诈欺,并给出了一个四两拨千斤的解法:与其用奋斗的 SFT 去「管住」模子的输出专业赛事推荐平台,或用一刀切的上限去「猜」每说念题的合理长度,不如让想考形状我方的解答部分来告诉咱们,这说念题不想考时普通应该写多长。由此提议的 TNT 无需 SFT、无需转换模子结构,仅在奖励层面引入一个动态 token 上限,便在三个基座模子、五个数学基准上一致地完毕了约 50% 的 token 削减与准确率升迁,并将奖励诈欺概率压制在 10% 以内。