Learning from Peers in Reasoning Models

要約

大規模な推論モデル(LRM)は、推論パスで間違いを犯した場合でも、自己修正する能力を持っています。
しかし、私たちの研究では、推論プロセスが短いが貧弱な始まりから始まると、モデルが回復することが困難になることが明らかになりました。
この現象を「プレフィックスドミナンストラップ」と呼びます。
ピアインタラクションがすでに正確な個人に悪影響を与えることなく自己修正を促進できるという心理的な発見に触発されて、私たちはこの現象に対処するためにピアから学ぶ**(leap)を提案します。
具体的には、すべてのトークンは、各推論パスを中間推論を要約し、ルーティングメカニズムを介して他の人と共有し、パスが推論中にピア洞察を組み込むことを可能にします。
ただし、小さなモデルが要約と反射の指示に効果的に従わない場合があることがわかります。
これに対処するために、それらを** Leap-T **モデルシリーズに微調整します。
AIME 2024、AIME 2025、AIMO 2025、およびGPQAダイヤモンドの実験は、Leapが大幅な改善を提供することを示しています。
たとえば、LEAPのQWQ-32Bは、平均してベースラインよりもベースラインよりも5つ近い絶対ポイントが5つ近く達成され、平均3.3ポイントの3つの数学ベンチマークでDeepSeek-R1-671Bを上回ります。
特に、微調整されたLeap-T-7Bは、AIME 2024でのDeepSeek-R1-Distill-Qwen-14Bのパフォーマンスと一致しています。詳細な分析は、タイムリーなピア洞察によるLeapの堅牢なエラー補正を明らかにし、強いエラーの許容度とさまざまなタスクの難易度を扱うことを示しています。
LRMSが推論中に協力できるようにすることにより、LEAPはマイルストーンを示します。
コード、データセット、およびモデルは、https://learning-from-peers.github.io/で入手できます。

要約(オリジナル)

Large Reasoning Models (LRMs) have the ability to self-correct even when they make mistakes in their reasoning paths. However, our study reveals that when the reasoning process starts with a short but poor beginning, it becomes difficult for the model to recover. We refer to this phenomenon as the ‘Prefix Dominance Trap’. Inspired by psychological findings that peer interaction can promote self-correction without negatively impacting already accurate individuals, we propose **Learning from Peers** (LeaP) to address this phenomenon. Specifically, every tokens, each reasoning path summarizes its intermediate reasoning and shares it with others through a routing mechanism, enabling paths to incorporate peer insights during inference. However, we observe that smaller models sometimes fail to follow summarization and reflection instructions effectively. To address this, we fine-tune them into our **LeaP-T** model series. Experiments on AIME 2024, AIME 2025, AIMO 2025, and GPQA Diamond show that LeaP provides substantial improvements. For instance, QwQ-32B with LeaP achieves nearly 5 absolute points higher than the baseline on average, and surpasses DeepSeek-R1-671B on three math benchmarks with an average gain of 3.3 points. Notably, our fine-tuned LeaP-T-7B matches the performance of DeepSeek-R1-Distill-Qwen-14B on AIME 2024. In-depth analysis reveals LeaP’s robust error correction by timely peer insights, showing strong error tolerance and handling varied task difficulty. LeaP marks a milestone by enabling LRMs to collaborate during reasoning. Our code, datasets, and models are available at https://learning-from-peers.github.io/ .

arxiv情報

著者 Tongxu Luo,Wenyu Du,Jiaxi Bi,Stephen Chung,Zhengyang Tang,Hao Yang,Min Zhang,Benyou Wang
発行日 2025-05-12 17:39:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク