DEBATE, TRAIN, EVOLVE: Self Evolution of Language Model Reasoning

要約

大規模な言語モデル(LLM)は、大規模なデータセットに関する広範なトレーニングを通じて、推論が大幅に改善されました。
ただし、改善のための追加データのみに依存することはますます非現実的になりつつあり、モデルが外部の監督なしで自律的に推論を強化する必要性を強調しています。
このペーパーでは、多象徴的な討論の痕跡を使用して単一言語モデルを進化させる、討論、訓練、Evolve(DTE)を提案します。
また、エージェントに推論を批判し洗練するように明示的に指示することにより、議論の質を向上させるために、新しいプロンプト戦略を反映して批判的にrefineする新しいプロンプト戦略を紹介します。
6つのオープンウェイトモデルを備えた5つの推論ベンチマークに関する広範な評価は、DTEフレームワークが大幅に改善され、挑戦的なGSMプラスデータセットで平均精度が8.92%であることを示しています。
さらに、他のすべてのベンチマークで5.8%の平均精度の増加で、強力なクロスドメインの一般化が観察されており、この方法が一般的な推論能力をキャプチャしていることを示唆しています。

要約(オリジナル)

Large language models (LLMs) have improved significantly in their reasoning through extensive training on massive datasets. However, relying solely on additional data for improvement is becoming increasingly impractical, highlighting the need for models to autonomously enhance their reasoning without external supervision. In this paper, we propose Debate, Train, Evolve (DTE), a novel ground truth-free training framework that uses multi-agent debate traces to evolve a single language model. We also introduce a new prompting strategy Reflect-Critique-Refine, to improve debate quality by explicitly instructing agents to critique and refine their reasoning. Extensive evaluations on five reasoning benchmarks with six open-weight models show that our DTE framework achieve substantial improvements, with an average accuracy gain of 8.92% on the challenging GSM-PLUS dataset. Furthermore, we observe strong cross-domain generalization, with an average accuracy gain of 5.8% on all other benchmarks, suggesting that our method captures general reasoning capabilities.

arxiv情報

著者 Gaurav Srivastava,Zhenyu Bi,Meng Lu,Xuan Wang
発行日 2025-05-21 16:40:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク