Monte Carlo Tree Search Boosts Reasoning via Iterative Preference Learning

要約

AlphaZero が採用した成功した戦略に触発された反復的な優先学習プロセスを通じて、大規模言語モデル (LLM) の推論能力を強化することを目的としたアプローチを紹介します。
私たちの取り組みでは、モンテカルロ ツリー検索 (MCTS) を利用して嗜好データを繰り返し収集し、先読み機能を利用してインスタンス レベルの報酬をより詳細なステップ レベルの信号に分解します。
中間ステップの一貫性を高めるために、結果の検証と段階的な自己評価を組み合わせて、新しく生成されたデータの品質評価を継続的に更新します。
提案されたアルゴリズムは、直接優先最適化 (DPO) を採用し、この新しく生成されたステップレベルの優先データを使用して LLM ポリシーを更新します。
理論的分析により、自己改善を成功させるには、ポリシーに従ってサンプリングされたデータを使用することが非常に重要であることが明らかになりました。
さまざまな算術および常識的推論タスクに関する広範な評価により、既存のモデルと比較して顕著なパフォーマンスの向上が実証されました。
たとえば、当社のアプローチは、GSM8K、MATH、および SciQ での Mistral-7B Supervised Fine-Tuning (SFT) ベースラインを上回り、精度が $80.7\%$ (+$4.8\%$)、$32.2\%$ (
それぞれ +$3.3\%$)、および $88.5\%$ (+$7.7\%$)。
さらに、私たちの調査では、トレーニングと推論計算のトレードオフを詳しく調べ、私たちの方法がどのようにしてパフォーマンスの向上を効果的に最大化するかについての洞察を提供しています。

要約(オリジナル)

We introduce an approach aimed at enhancing the reasoning capabilities of Large Language Models (LLMs) through an iterative preference learning process inspired by the successful strategy employed by AlphaZero. Our work leverages Monte Carlo Tree Search (MCTS) to iteratively collect preference data, utilizing its look-ahead ability to break down instance-level rewards into more granular step-level signals. To enhance consistency in intermediate steps, we combine outcome validation and stepwise self-evaluation, continually updating the quality assessment of newly generated data. The proposed algorithm employs Direct Preference Optimization (DPO) to update the LLM policy using this newly generated step-level preference data. Theoretical analysis reveals the critical importance of using on-policy sampled data for successful self-improving. Extensive evaluations on various arithmetic and commonsense reasoning tasks demonstrate remarkable performance improvements over existing models. For instance, our approach outperforms the Mistral-7B Supervised Fine-Tuning (SFT) baseline on GSM8K, MATH, and SciQ, with substantial percentage increases in accuracy to $80.7\%$ (+$4.8\%$), $32.2\%$ (+$3.3\%$), and $88.5\%$ (+$7.7\%$), respectively. Additionally, our research delves into the training and inference compute tradeoff, providing insights into how our method effectively maximizes performance gains.

arxiv情報

著者 Yuxi Xie,Anirudh Goyal,Wenyue Zheng,Min-Yen Kan,Timothy P. Lillicrap,Kenji Kawaguchi,Michael Shieh
発行日 2024-05-01 11:10:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク