Real-World Offline Reinforcement Learning from Vision Language Model Feedback

要約

オフライン強化学習により、オンラインでの対話なしで、事前に収集された次善のデータセットからポリシー学習を行うことができます。
これは、オンライン データの収集や専門家によるデモンストレーションに時間がかかり、コストがかかり、リスクが伴う現実世界のロボットや安全性が重要なシナリオに最適です。
ただし、既存のオフライン RL 作業のほとんどは、データセットにタスクの報酬がすでにラベル付けされていることを前提としています。このプロセスは、特にグラウンドトゥルースの状態を確認することが難しい場合 (現実世界など)、多くの場合、多大な人間の労力を必要とします。
この論文では、以前の研究、特に RL-VLM-F に基づいて構築し、視覚言語モデルとタスクのテキスト記述からの好みのフィードバックを使用して、オフライン データセットの報酬ラベルを自動的に生成する新しいシステムを提案します。
次に、私たちのメソッドは、報酬ラベル付きデータセットでオフライン RL を使用してポリシーを学習します。
私たちは、複雑な現実世界のロボット支援ドレッシングタスクへのシステムの適用性を実証します。このタスクでは、最初に次善のオフラインデータセット上の視覚言語モデルを使用して報酬関数を学習し、次に学習した報酬を使用して暗黙的 Q 学習を使用します。
効果的なドレッシングポリシーを開発します。
私たちの方法は、剛体および変形可能なオブジェクトの操作を含むシミュレーション タスクでも良好に実行され、動作の複製や逆 RL などのベースラインを大幅に上回ります。
要約すると、ラベルのない次善のオフライン データセットからの自動報酬ラベル付けとポリシー学習を可能にする新しいシステムを提案します。

要約(オリジナル)

Offline reinforcement learning can enable policy learning from pre-collected, sub-optimal datasets without online interactions. This makes it ideal for real-world robots and safety-critical scenarios, where collecting online data or expert demonstrations is slow, costly, and risky. However, most existing offline RL works assume the dataset is already labeled with the task rewards, a process that often requires significant human effort, especially when ground-truth states are hard to ascertain (e.g., in the real-world). In this paper, we build on prior work, specifically RL-VLM-F, and propose a novel system that automatically generates reward labels for offline datasets using preference feedback from a vision-language model and a text description of the task. Our method then learns a policy using offline RL with the reward-labeled dataset. We demonstrate the system’s applicability to a complex real-world robot-assisted dressing task, where we first learn a reward function using a vision-language model on a sub-optimal offline dataset, and then we use the learned reward to employ Implicit Q learning to develop an effective dressing policy. Our method also performs well in simulation tasks involving the manipulation of rigid and deformable objects, and significantly outperform baselines such as behavior cloning and inverse RL. In summary, we propose a new system that enables automatic reward labeling and policy learning from unlabeled, sub-optimal offline datasets.

arxiv情報

著者 Sreyas Venkataraman,Yufei Wang,Ziyu Wang,Zackory Erickson,David Held
発行日 2024-11-08 02:12:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO パーマリンク