要約
アクティブな探査を活用する言語モデルのアライメント(または、補強学習)技術 – モデルが多様で有益な応答を生成するように意図的に奨励する – は、超人間の能力の約束を提供します。
ただし、言語モデルを使用した計算効率的な探索のためのアルゴリズムの設計プリミティブを設計する現在の理解は限られています。
強力な事前訓練を受けた生成モデルへのアクセスを活用して探索の効率を改善する方法をよりよく理解するために、言語モデルを使用してRLの新しい計算フレームワークを紹介します。このモデルでは、学習者がサンプリングオラクルを介してモデルと相互作用します。
線形ソフトマックスモデルのパラメーター化に焦点を当てて、効率的な調査の計算統計的トレードオフを明らかにする新しい結果を提供します。
データ効率には必要ではありませんが、フレームワーク内のあらゆるアルゴリズムのランタイムを下回るカバレッジが示されています。
2。推論時間探査:最適なデータ効率を取得し、事前に訓練されたモデルが十分なカバレッジを享受し、下限に合わせて計算上効率的である新しいアルゴリズム、スパンサンプリングを紹介します。
スパンサンプリングレバレッジは、事前に訓練されたモデルを使用して推論時間計算を行い、探索のための効果的な検索スペースを削減します。
3。トレーニング時間介入の不足:適切なポリシーを生成するトレーニング時間介入が多項式時間で同様の保証を達成できないことを示すことにより、上記の結果を対比します。
4。マルチターン探索の計算上の利点:最後に、追加の表現の仮定の下で、マルチターン探索を通じて改善されたランタイム(トークンレベルのカバレッジに置き換える)を達成できることを示します。
要約(オリジナル)
Language model alignment (or, reinforcement learning) techniques that leverage active exploration — deliberately encouraging the model to produce diverse, informative responses — offer the promise of super-human capabilities. However, current understanding of algorithm design primitives for computationally efficient exploration with language models is limited. To better understand how to leverage access to powerful pre-trained generative models to improve the efficiency of exploration, we introduce a new computational framework for RL with language models, in which the learner interacts with the model through a sampling oracle. Focusing on the linear softmax model parameterization, we provide new results that reveal the computational-statistical tradeoffs of efficient exploration: 1. Necessity of coverage: Coverage refers to the extent to which the pre-trained model covers near-optimal responses — a form of hidden knowledge. We show that coverage, while not necessary for data efficiency, lower bounds the runtime of any algorithm in our framework. 2. Inference-time exploration: We introduce a new algorithm, SpannerSampling, which obtains optimal data efficiency and is computationally efficient whenever the pre-trained model enjoys sufficient coverage, matching our lower bound. SpannerSampling leverages inference-time computation with the pre-trained model to reduce the effective search space for exploration. 3. Insufficiency of training-time interventions: We contrast the result above by showing that training-time interventions that produce proper policies cannot achieve similar guarantees in polynomial time. 4. Computational benefits of multi-turn exploration: Finally, we show that under additional representational assumptions, one can achieve improved runtime (replacing sequence-level coverage with token-level coverage) through multi-turn exploration.
arxiv情報
著者 | Dylan J. Foster,Zakaria Mhammedi,Dhruv Rohatgi |
発行日 | 2025-03-10 15:31:42+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google