研究人员提出OThink-R1，让大模型自行决定是否需要深度思考-企业快车的专栏

研究人员提出OThink-R1，让大模型自行决定是否需要深度思考

2025-09-02 08:11:24栏目：默认栏目 IP属地：IP未知

近日，浙江大学硕士生张盛佳和所在团队发现：深度推理模型的部分推理过程是不必要的。一方面，目前的深度推理模型在面对一些例如“1+1=？”的简单问题时，也需要大费周章地进行深度思考。而人类在面对诸如此类的简单问题时，往往能够凭直觉给出答案；另一方面，在一些简单任务上（例如，常识问答和小学生数学题），即使不具有深度推理能力的大模型也能取得较好的效果。本次研究基于所观察到的现象提出了一种解决方案，使得深度推理大模型在解决问题时，能够自行决定是否进行深度思考，有利于计算资源更加合理的分配，提升大模型的推理效率。

图 | 张盛佳（来源：张盛佳）

据介绍，受限于数据与算力的规模，预训练以 Transformer 为基础架构的大模型所带来的收益正在不断式微。那么，该如何进一步提升大模型的能力？近来，以 DeepSeek-R1、OpenAI o1 为代表的深度推理大模型突破了预训练 Scaling Law 的限制，通过增加测试时计算资源的投入，在多种复杂任务上取得了优异的效果。与非深度推理大模型相比，深度推理大模型通过模仿人类进行深度思考，能够更加准确地理解用户的需求，更加深入地分析用户提出的问题。

然而，目前的深度推理大模型面临严重的冗余思考问题：即使面对例如“1+1=?”这样的简单问题，深度推理大模型也需要进行长时间的思考，造成了计算资源的浪费。

实际上，人类的思考模式可以分为“根据直觉得出答案”的快思考和“进行深入分析得出答案”的慢思考。在面临一些简单的问题时，人类往往能够通过直觉直接给出答案。

图 | OThink-R1 主体框架（来源：张盛佳）

受到人类思考模式的启发，该团队提出了这样一个问题：如何赋予深度推理大模型自动切换快慢思考的能力，自行决定是否需要进行深度思考，从而更加合理地利用计算资源？

针对该问题，他们提出了一种创新性解决方案。具体来说，本研究首先对非推理模型（模仿人类快思考，直接给出答案）和深度推理模型在简单任务（例如，常识问答和小学生数学题）上均成功解决的问题进行统计，收集这类问题上深度推理模型的推理思维链。通过大量比较推理思维链的异同，本研究总结出“必要推理”和“冗余推理”的多条特征，并根据此将深度推理思维链分类为必要推理和冗余推理，将冗余推理中的深度推理部分删除，构成一批混合推理思维链数据集。最后，基于该数据集对深度推理模型进行监督微调，赋予深度推理模型自动切换快慢思考的能力。

因此，本研究对实现“Test-time Scaling Law”具有十分重要的意义，其赋予了深度推理大模型自动切换快慢思考的能力，使得模型能够更加合理的分配计算资源。因此，模型能够通过内部知识直接给出一些简单问题的答案，也能够开启深度思考，细致地分析一些困难的问题。

据介绍，本次研究项目是 OPPO 与浙江大学联合攻关课题之一。受年初 DeepSeek-R1 一系列研究的启发，该团队尝试着来探索 DeepSeek-R1 模型的相关性质。如前所述，他们发现在使用 DeepSeek-R1 模型时，即使问很简单的问题，例如“1+1=？”或者“请帮我修改我的作业”之类的问题，也会生成特别长的思维链。这实际上是不必要的，不仅增长用户等待时间，还会浪费计算资源。

在研究初期，最困扰该团队的是如何设计稳定的模型输出结果验证器。一方面，他们发现 DeepSeek-R1 这类模型，遵循指令的能力不够优秀。这就导致模型推理的结果不具有特定的格式，加大了提取模型结果的难度。

另一方面，该团队自己构建了许多模型的输出结果验证器，但是这些结果验证器没有很好地考虑各种输出结果的风格，十分不稳定。有时会出现模型回答是正确的，但是并未正确地提取模型的答案。或者提取到错误的模型答案导致无法正确地评估各个模型的效果，以及无法正确地评估该团队所提出方法的效果。

在这个问题解决之后，该团队最初始的方案是想基于 GRPO 算法，利用强化学习的方式去激发出模型快慢思考的能力。然而，DeepSeek-R1 这一类模型指令遵循能力差，该团队设计了许多 prompt，都无法在训练的初期让模型输出跳过深度思考过程的回答。于是该团队转向设计奖励函数，期望能够通过设计一类特殊的奖励函数，让模型的思考过程长度首先降为 0，然后慢慢增长。经过该团队多次尝试，该团队设计了一类在理论上能够达到该效果的奖励函数，但是经过多次尝试，该奖励函数在实际中并未达到该团队的目标效果。

这个时候该团队尝试着使用 DPO 算法，将快思考的回答作为正样本，慢思考的回答作为负样本，进行模型训练。该团队进行了许多实验，DPO 效果极其不稳定，训练出的模型均表现出效果大幅下降。在阅读相关文献后，该团队发现，DPO 这类算法不适合分布剧烈变化的情况。于是最后该团队尝试使用监督微调的方式，进行模型的训练。具体做法是，收集训练集上推理模型的正确回答，删除这其中非推理模型也能解决的问题上推理模型的深度思考过程，使用监督微调进行训练。这个方案在初期取得了相比于之前两个方案更优的效果：模型性能不会大幅下降，同时模型能够开始自行决定是否思考。

然而，该团队发现，这个方案仍然无法很好地迁移到其他场景下，仍然会造成模型性能的大幅降低。于是该团队开始考虑，是否在非推理模型能够解决的问题上，模型的一部分深度思考过程也是必要的。从这个想法出发，该团队开始利用大模型对深度思考过程进行分类，将其分类为有效思考和冗余思考，重新构造数据集进行监督微调。最终，在这个方案下，该团队做出了比较好的效果。尽管该团队的研究已经赋予了推理大语言模型自动切换快慢思考的能力，但目前 OThink-R1 还依赖大模型 LLM-Judge 来判断推理冗余。未来该团队期望继续深入研究，以端到端的方式来赋予模型自动切换快慢思考的能力。

　来源: DeepTech深科技