要約
強化学習(Reinforcement Learning: RL)の研究において、効果的な報酬関数を設計するためには多大な労力と試行錯誤の繰り返しが必要であり、報酬工学は長年の課題であった。本論文では、視覚言語基盤モデル(VLM)からのフィードバックを活用することで、タスクゴールのテキスト記述とエージェントの視覚的観察のみを用いて、エージェントが新しいタスクを学習するための報酬関数を自動的に生成する手法であるRL-VLM-Fを提案する。我々のアプローチの鍵は、タスクゴールのテキスト記述に基づき、エージェントの画像観察のペアに対するプリファレンスをこれらのモデルに問い合わせ、プリファレンスラベルから報酬関数を学習することである。我々は、RL-VLM-Fが、古典的な制御や、剛体、関節、変形可能な物体の操作を含む様々な領域において、人間の監視を必要とせずに、効果的な報酬とポリシーを生成することに成功し、同じ仮定の下で報酬生成のために大規模な事前学習モデルを使用する先行手法を凌駕することを実証する。動画はプロジェクトのウェブサイトhttps://rlvlmf2024.github.io/。
要約(オリジナル)
Reward engineering has long been a challenge in Reinforcement Learning (RL) research, as it often requires extensive human effort and iterative processes of trial-and-error to design effective reward functions. In this paper, we propose RL-VLM-F, a method that automatically generates reward functions for agents to learn new tasks, using only a text description of the task goal and the agent’s visual observations, by leveraging feedbacks from vision language foundation models (VLMs). The key to our approach is to query these models to give preferences over pairs of the agent’s image observations based on the text description of the task goal, and then learn a reward function from the preference labels, rather than directly prompting these models to output a raw reward score, which can be noisy and inconsistent. We demonstrate that RL-VLM-F successfully produces effective rewards and policies across various domains – including classic control, as well as manipulation of rigid, articulated, and deformable objects – without the need for human supervision, outperforming prior methods that use large pretrained models for reward generation under the same assumptions. Videos can be found on our project website: https://rlvlmf2024.github.io/
arxiv情報
著者 | Yufei Wang,Zhanyi Sun,Jesse Zhang,Zhou Xian,Erdem Biyik,David Held,Zackory Erickson |
発行日 | 2024-03-02 00:19:06+00:00 |
arxivサイト | arxiv_id(pdf) |