要約
報酬関数の設計は強化学習の中核コンポーネントですが、本当に複雑な動作の場合は困難な場合があります。
ヒューマン フィードバックからの強化学習 (RLHF) は、手動でコード化された報酬関数を好みから学習した報酬関数に置き換えることで、この課題を軽減するために使用されています。
ただし、これらの報酬はタブララサで学習されることが多いため、学習するのは非常に非効率的である可能性があります。
私たちは、大規模言語モデル (LLM) が人間の一連の反復的な好みを報酬を表すコードに変換することによって、このクエリの非効率性を削減できるかどうかを調査します。
我々は、LLM の基礎を使用して好みから報酬関数の学習を加速する方法である、コンテキスト内好み学習 (ICPL) を提案します。
ICPL は環境コンテキストとタスクの説明を取得し、一連の報酬関数を合成し、結果として得られるポリシーのビデオに対する人間によるランキングを使用して報酬関数を繰り返し更新します。
合成選好を使用して、ICPL が RLHF よりも桁違いに効率的であり、選好の代わりにグラウンドトゥルースの報酬関数を使用する方法とさえ競合できることを示します。
最後に、一連の人間の好みの学習トライアルを実行し、ICPL が合成設定を超えて拡張され、人間との対話で効果的に機能できることを観察しました。
追加情報とビデオは、https://sites.google.com/view/few-shot-icpl/home で提供されます。
要約(オリジナル)
Designing reward functions is a core component of reinforcement learning but can be challenging for truly complex behavior. Reinforcement Learning from Human Feedback (RLHF) has been used to alleviate this challenge by replacing a hand-coded reward function with a reward function learned from preferences. However, it can be exceedingly inefficient to learn these rewards as they are often learned tabula rasa. We investigate whether Large Language Models (LLMs) can reduce this query inefficiency by converting an iterative series of human preferences into code representing the rewards. We propose In-Context Preference Learning (ICPL), a method that uses the grounding of an LLM to accelerate learning reward functions from preferences. ICPL takes the environment context and task description, synthesizes a set of reward functions, and then repeatedly updates the reward functions using human rankings of videos of the resultant policies. Using synthetic preferences, we demonstrate that ICPL is orders of magnitude more efficient than RLHF and is even competitive with methods that use ground-truth reward functions instead of preferences. Finally, we perform a series of human preference-learning trials and observe that ICPL extends beyond synthetic settings and can work effectively with humans-in-the-loop. Additional information and videos are provided at https://sites.google.com/view/few-shot-icpl/home.
arxiv情報
著者 | Chao Yu,Hong Lu,Jiaxuan Gao,Qixin Tan,Xinting Yang,Yu Wang,Yi Wu,Eugene Vinitsky |
発行日 | 2024-10-22 17:53:34+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google