要約
ヒューマン フィードバックからの強化学習 (RLHF) は、大規模な言語モデルを人間の意図に合わせて調整するのに効果的であることが証明されていますが、多くの場合、近接ポリシー最適化 (PPO) のような複雑な方法論に依存するため、広範なハイパーパラメーター調整が必要であり、サンプルの効率と安定性に課題が生じます。
このペーパーでは、追加の報酬モデルや価値モデルを必要とせずにトークンレベルの強化学習を最適化することで、従来の RL 手法を超越する革新的なフレームワークである Inverse-Q* を紹介します。
Inverse-Q* は、直接的な優先最適化技術を活用しますが、モデルの応答から条件付きで最適なポリシーを直接推定することでその技術を拡張し、よりきめ細かく柔軟なポリシー形成を容易にします。
私たちのアプローチは人間による注釈や外部監視への依存を軽減し、リソースが少ない環境に特に適しています。
我々は、Inverse-Q* が、収束速度とモデル応答と人間の好みの整合性の点で、PPO の有効性と一致するだけでなく、潜在的にそれを上回ることを実証する広範な実験結果を紹介します。
私たちの調査結果は、Inverse-Q* が従来の RLHF アプローチに代わる実用的で堅牢な代替手段を提供し、より効率的で適応性のあるモデル トレーニング アプローチへの道を開くことを示唆しています。
要約(オリジナル)
Reinforcement Learning from Human Feedback (RLHF) has proven effective in aligning large language models with human intentions, yet it often relies on complex methodologies like Proximal Policy Optimization (PPO) that require extensive hyper-parameter tuning and present challenges in sample efficiency and stability. In this paper, we introduce Inverse-Q*, an innovative framework that transcends traditional RL methods by optimizing token-level reinforcement learning without the need for additional reward or value models. Inverse-Q* leverages direct preference optimization techniques but extends them by estimating the conditionally optimal policy directly from the model’s responses, facilitating more granular and flexible policy shaping. Our approach reduces reliance on human annotation and external supervision, making it especially suitable for low-resource settings. We present extensive experimental results demonstrating that Inverse-Q* not only matches but potentially exceeds the effectiveness of PPO in terms of convergence speed and the alignment of model responses with human preferences. Our findings suggest that Inverse-Q* offers a practical and robust alternative to conventional RLHF approaches, paving the way for more efficient and adaptable model training approaches.
arxiv情報
著者 | Han Xia,Songyang Gao,Qiming Ge,Zhiheng Xi,Qi Zhang,Xuanjing Huang |
発行日 | 2024-08-29 13:49:40+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google