要約
オフライン強化学習 (RL) を使用して大規模言語モデル (LLM) の複数ステップの推論能力を向上させることは、LLM を複雑なタスクに迅速に適応させるために不可欠です。
Direct Preference Optimization (DPO) は、LLM を人間の好みに合わせるのに有望であることが示されていますが、(1) DPO はペアになった好みのデータに依存しているため、複数ステップの推論タスクには容易に利用できません。
(2) すべてのトークンを均一に扱うため、報酬がまばらな場合が多い、複数ステップの推論タスクでの単位の割り当てが無効になります。
この研究では、LLM 多段階推論を強化するためのオフライン RL 手法である OREO (Offline Reasoning Optimization) を提案します。
最大エントロピー強化学習のこれまでの研究からの洞察に基づいて、ソフト ベルマン方程式を最適化することによってポリシー モデルと価値関数を共同学習します。
原理的には、ペアごとのデータを収集する必要性が減り、より適切な単位の割り当てが可能になることを示します。
経験的に、OREO は、数学的推論タスク (GSM8K、MATH) や身体的エージェント制御 (ALFWorld) などのマルチステップ推論ベンチマークで既存のオフライン学習方法を上回っています。
追加のリソースが利用可能な場合、このアプローチは複数反復フレームワークに拡張できます。
さらに、学習値機能を利用してツリー検索を無料でガイドできるため、テスト時のパフォーマンスをさらに向上させることができます。
要約(オリジナル)
Improving the multi-step reasoning ability of large language models (LLMs) with offline reinforcement learning (RL) is essential for quickly adapting them to complex tasks. While Direct Preference Optimization (DPO) has shown promise in aligning LLMs with human preferences, it is less suitable for multi-step reasoning tasks because (1) DPO relies on paired preference data, which is not readily available for multi-step reasoning tasks, and (2) it treats all tokens uniformly, making it ineffective for credit assignment in multi-step reasoning tasks, which often come with sparse reward. In this work, we propose OREO (Offline Reasoning Optimization), an offline RL method for enhancing LLM multi-step reasoning. Building on insights from previous works of maximum entropy reinforcement learning, it jointly learns a policy model and value function by optimizing the soft Bellman Equation. We show in principle that it reduces the need to collect pairwise data and enables better credit assignment. Empirically, OREO surpasses existing offline learning methods on multi-step reasoning benchmarks, including mathematical reasoning tasks (GSM8K, MATH) and embodied agent control (ALFWorld). The approach can be extended to a multi-iteration framework when additional resources are available. Furthermore, the learned value function can be leveraged to guide the tree search for free, which can further boost performance during test time.
arxiv情報
著者 | Huaijie Wang,Shibo Hao,Hanze Dong,Shenao Zhang,Yilin Bao,Ziran Yang,Yi Wu |
発行日 | 2024-12-20 18:49:45+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google