要約
報酬エンジニアリングは、効果的な報酬関数を設計するために多大な人間の労力と試行錯誤の反復プロセスを必要とすることが多いため、強化学習 (RL) 研究において長年の課題でした。
この論文では、視覚言語基礎モデルからのフィードバックを活用することで、タスク目標のテキスト記述とエージェントの視覚的観察のみを使用して、エージェントが新しいタスクを学習するための報酬関数を自動的に生成する方法である RL-VLM-F を提案します (
VLM)。
私たちのアプローチの鍵は、これらのモデルにクエリを実行して、タスク目標のテキスト説明に基づいてエージェントの画像観察のペアに対する優先順位を与え、その後、これらのモデルに出力を直接促すのではなく、優先ラベルから報酬関数を学習することです。
生の報酬スコア。ノイズが多く、一貫性がない場合があります。
私たちは、RL-VLM-F が人間の監督を必要とせずに、従来の制御だけでなく、剛体、多関節、変形可能なオブジェクトの操作を含む、さまざまな領域にわたって効果的な報酬とポリシーを生成することに成功し、大規模な事前学習済みモデルを使用する従来の方法を上回るパフォーマンスを示します。
同じ仮定の下で報酬を生成します。
要約(オリジナル)
Reward engineering has long been a challenge in Reinforcement Learning (RL) research, as it often requires extensive human effort and iterative processes of trial-and-error to design effective reward functions. In this paper, we propose RL-VLM-F, a method that automatically generates reward functions for agents to learn new tasks, using only a text description of the task goal and the agent’s visual observations, by leveraging feedbacks from vision language foundation models (VLMs). The key to our approach is to query these models to give preferences over pairs of the agent’s image observations based on the text description of the task goal, and then learn a reward function from the preference labels, rather than directly prompting these models to output a raw reward score, which can be noisy and inconsistent. We demonstrate that RL-VLM-F successfully produces effective rewards and policies across various domains – including classic control, as well as manipulation of rigid, articulated, and deformable objects – without the need for human supervision, outperforming prior methods that use large pretrained models for reward generation under the same assumptions.
arxiv情報
著者 | Yufei Wang,Zhanyi Sun,Jesse Zhang,Zhou Xian,Erdem Biyik,David Held,Zackory Erickson |
発行日 | 2024-02-10 20:49:55+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google