Imitating Language via Scalable Inverse Reinforcement Learning

要約

言語モデルのトレーニングの大部分は模倣学習に基づいています。
これは、事前トレーニング、教師あり微調整をカバーし、ヒューマン フィードバックからの強化学習 (RLHF) の開始条件に影響を与えます。
次のトークンを予測するための最尤推定 (MLE) のシンプルさとスケーラビリティにより、その主要なパラダイムとしての役割が生まれました。
ただし、より広範な模倣学習の分野では、自己回帰生成の基礎となる逐次構造をより効果的に利用できます。
私たちは、個々のトークンの尤度ではなく、模倣、報酬の抽出、シーケンスの直接最適化に対する逆強化学習 (IRL) の観点を調査することに焦点を当て、大規模な言語モデルを微調整する場合のその利点を評価します。
我々は、MLE の時間差分正則化拡張として逆ソフト Q 学習を再定式化する新しい角度を提供します。
これにより、MLE と IRL の間に原則的な接続が確立され、教師あり微調整 (SFT) 設定でのパフォーマンスの向上と世代の多様性との複雑さのトレードオフが可能になります。
私たちは、IRL ベースの模倣には明らかな利点があり、特にタスクのパフォーマンスを最大化しながら多様性を維持する点で、オンライン データ生成がなくても IRL を固定 SFT データセットの強力な代替手段にすることができます。
IRL で抽出された報酬関数の分析では、トレーニング後の教師あり好みベースの LLM の緊密な統合による、より堅牢な報酬関数の利点がさらに示されました。

要約(オリジナル)

The majority of language model training builds on imitation learning. It covers pretraining, supervised fine-tuning, and affects the starting conditions for reinforcement learning from human feedback (RLHF). The simplicity and scalability of maximum likelihood estimation (MLE) for next token prediction led to its role as predominant paradigm. However, the broader field of imitation learning can more effectively utilize the sequential structure underlying autoregressive generation. We focus on investigating the inverse reinforcement learning (IRL) perspective to imitation, extracting rewards and directly optimizing sequences instead of individual token likelihoods and evaluate its benefits for fine-tuning large language models. We provide a new angle, reformulating inverse soft-Q-learning as a temporal difference regularized extension of MLE. This creates a principled connection between MLE and IRL and allows trading off added complexity with increased performance and diversity of generations in the supervised fine-tuning (SFT) setting. We find clear advantages for IRL-based imitation, in particular for retaining diversity while maximizing task performance, rendering IRL a strong alternative on fixed SFT datasets even without online data generation. Our analysis of IRL-extracted reward functions further indicates benefits for more robust reward functions via tighter integration of supervised and preference-based LLM post-training.

arxiv情報

著者 Markus Wulfmeier,Michael Bloesch,Nino Vieillard,Arun Ahuja,Jorg Bornschein,Sandy Huang,Artem Sokolov,Matt Barnes,Guillaume Desjardins,Alex Bewley,Sarah Maria Elisabeth Bechtle,Jost Tobias Springenberg,Nikola Momchev,Olivier Bachem,Matthieu Geist,Martin Riedmiller
発行日 2024-12-09 14:26:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG, stat.ML パーマリンク