Enhancing LLM Reasoning via Critique Models with Test-Time and Training-Time Supervision

要約

科学、コーディング、数学などの分野で複雑な推論タスクを効果的に解決するには、応答する前に思考と熟考により多くの時間を費やすように大規模言語モデル (LLM) をトレーニングすることが重要です。
ただし、自己反省や自己修正などのメカニズムの有効性は、モデル自体のパフォーマンスを正確に評価するモデルの能力に依存し、初期精度、質問の難易度、外部フィードバックの欠如などの要因によって制限される可能性があります。
この論文では、推論モデルと批評モデルの役割を分離する 2 プレイヤー パラダイムを詳しく掘り下げます。ここで、批評モデルは、テスト時とトレーニング時の両方で推論 (アクター) モデルを監督するためのステップレベルのフィードバックを提供します。
私たちはまず、批評データを収集するための自動化されたスケーラブルなフレームワークである AutoMathCritique を提案します。これにより、ステップレベルのフィードバックと組み合わせた $76,321$ の回答のデータセットが得られます。
このデータセットを使用して言語モデルを微調整すると、数学的推論のための自然言語フィードバックを生成できるようになります。
我々は、批判モデルがテスト時、特に推論時の計算をスケールアップする際に、難しいクエリに対するアクターのパフォーマンスを一貫して向上させることを実証します。
これらの発見に動機づけられて、我々は俳優の自己訓練プロセスに批評ベースの監督を導入し、批評インザループ自己改善方法を提案する。
実験では、この方法により、特に難しいクエリにおいてアクターの探索効率とソリューションの多様性が向上し、より強力な推論モデルが得られることが示されています。
最後に、批評の監督を通じてセルフトーク推論モデルのトレーニングを検討し、その可能性を紹介するための準備段階を踏みます。
コードとデータセットは \href{https://mathcritique.github.io/}{https://mathcritique.github.io/} にあります。

要約(オリジナル)

Training large language models (LLMs) to spend more time thinking and reflection before responding is crucial for effectively solving complex reasoning tasks in fields such as science, coding, and mathematics. However, the effectiveness of mechanisms like self-reflection and self-correction depends on the model’s capacity to accurately assess its own performance, which can be limited by factors such as initial accuracy, question difficulty, and the lack of external feedback. In this paper, we delve into a two-player paradigm that separates the roles of reasoning and critique models, where the critique model provides step-level feedback to supervise the reasoning (actor) model during both test-time and train-time. We first propose AutoMathCritique, an automated and scalable framework for collecting critique data, resulting in a dataset of $76,321$ responses paired with step-level feedback. Fine-tuning language models with this dataset enables them to generate natural language feedback for mathematical reasoning. We demonstrate that the critique models consistently improve the actor’s performance on difficult queries at test-time, especially when scaling up inference-time computation. Motivated by these findings, we introduce the critique-based supervision to the actor’s self-training process, and propose a critique-in-the-loop self-improvement method. Experiments show that the method improves the actor’s exploration efficiency and solution diversity, especially on challenging queries, leading to a stronger reasoning model. Lastly, we take the preliminary step to explore training self-talk reasoning models via critique supervision and showcase its potential. Our code and datasets are at \href{https://mathcritique.github.io/}{https://mathcritique.github.io/}.

arxiv情報

著者 Zhiheng Xi,Dingwen Yang,Jixuan Huang,Jiafu Tang,Guanyu Li,Yiwen Ding,Wei He,Boyang Hong,Shihan Do,Wenyu Zhan,Xiao Wang,Rui Zheng,Tao Ji,Xiaowei Shi,Yitao Zhai,Rongxiang Weng,Jingang Wang,Xunliang Cai,Tao Gui,Zuxuan Wu,Qi Zhang,Xipeng Qiu,Xuanjing Huang,Yu-Gang Jiang
発行日 2024-11-25 17:11:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク