ReST-MCTS*: LLM Self-Training via Process Reward Guided Tree Search

要約

LLMの自己学習における最近の方法論のほとんどは、LLMが応答を生成し、正しい出力回答を持つものを訓練データとしてフィルタリングすることに依存している。このアプローチでは、質の低い微調整訓練セット(例えば、誤った計画や中間推論)が得られることが多い。本論文では、ReST-MCTS*と呼ばれる強化された自己訓練アプローチを開発する。ReST-MCTS*は、より質の高い推論トレースとステップ毎の値を収集し、ポリシーと報酬モデルを訓練するために、プロセス報酬ガイダンスを木探索MCTS*と統合することに基づく。ReST-MCTS*は、木探索ベースの強化学習によってプロセス報酬を訓練するために通常使用される、ステップごとの手動アノテーションを回避する:オラクルによる最終的な正解が与えられると、ReST-MCTS*は、このステップが正解を導くのに役立つ確率を推定することにより、正しいプロセス報酬を推論することができる。これらの推論された報酬は2つの目的を果たす:プロセス報酬モデルをさらに洗練するための値のターゲットとして機能し、また、ポリシーモデルの自己学習のための高品質なトレースの選択を容易にする。我々はまず、ReST-MCTS*における木探索方針が、Best-of-NやTree-of-Thoughtといった先行するLLM推論ベースラインと比較して、同じ探索予算内でより高い精度を達成することを示す。次に、この木探索方針によって探索された痕跡を学習データとして利用することで、3つの言語モデルを複数回反復して継続的に強化することができ、ReST$^text{EM}$やSelf-Rewarding LMなどの他の自己学習アルゴリズムを上回ることを示す。

要約(オリジナル)

Recent methodologies in LLM self-training mostly rely on LLM generating responses and filtering those with correct output answers as training data. This approach often yields a low-quality fine-tuning training set (e.g., incorrect plans or intermediate reasoning). In this paper, we develop a reinforced self-training approach, called ReST-MCTS*, based on integrating process reward guidance with tree search MCTS* for collecting higher-quality reasoning traces as well as per-step value to train policy and reward models. ReST-MCTS* circumvents the per-step manual annotation typically used to train process rewards by tree-search-based reinforcement learning: Given oracle final correct answers, ReST-MCTS* is able to infer the correct process rewards by estimating the probability this step can help lead to the correct answer. These inferred rewards serve dual purposes: they act as value targets for further refining the process reward model and also facilitate the selection of high-quality traces for policy model self-training. We first show that the tree-search policy in ReST-MCTS* achieves higher accuracy compared with prior LLM reasoning baselines such as Best-of-N and Tree-of-Thought, within the same search budget. We then show that by using traces searched by this tree-search policy as training data, we can continuously enhance the three language models for multiple iterations, and outperform other self-training algorithms such as ReST$^\text{EM}$ and Self-Rewarding LM.

arxiv情報

著者 Dan Zhang,Sining Zhoubian,Ziniu Hu,Yisong Yue,Yuxiao Dong,Jie Tang
発行日 2024-09-02 09:48:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL パーマリンク