要約
強化学習 (RL) を備えたロボットは、報酬信号だけから幅広いスキルを学習できる可能性があります。
ただし、一般的な操作タスクで堅牢かつ高密度の報酬信号を取得することは依然として課題です。
既存の学習ベースのアプローチでは、タスク固有の報酬関数を学習するために、デモンストレーションや成功と失敗の例などの重要なデータが必要です。
最近では、ロボット工学向けの大規模なマルチモーダル基礎モデルの採用も増えています。
これらのモデルは、物理的なコンテキストで視覚的な推論を実行し、さまざまな操作タスクのための粗いロボットの動きを生成できます。
この範囲の能力に動機付けられて、この研究では、ビジョン言語モデル (VLM) によって形成される報酬を提案および研究します。
最先端の VLM は、ゼロショットのキーポイントを通じてアフォーダンスを推論する優れた能力を実証しており、これを活用してロボット学習に対する高密度の報酬を定義します。
自然言語記述によって指定された現実世界の操作タスクでは、これらの報酬によって自律 RL のサンプル効率が向上し、20,000 のオンライン微調整ステップでタスクを正常に完了できることがわかりました。
さらに、事前トレーニングに使用されるドメイン内デモンストレーションの数を削減するアプローチの堅牢性を実証し、35,000 のオンライン微調整ステップで同等のパフォーマンスに達します。
要約(オリジナル)
Robots equipped with reinforcement learning (RL) have the potential to learn a wide range of skills solely from a reward signal. However, obtaining a robust and dense reward signal for general manipulation tasks remains a challenge. Existing learning-based approaches require significant data, such as demonstrations or examples of success and failure, to learn task-specific reward functions. Recently, there is also a growing adoption of large multi-modal foundation models for robotics. These models can perform visual reasoning in physical contexts and generate coarse robot motions for various manipulation tasks. Motivated by this range of capability, in this work, we propose and study rewards shaped by vision-language models (VLMs). State-of-the-art VLMs have demonstrated an impressive ability to reason about affordances through keypoints in zero-shot, and we leverage this to define dense rewards for robotic learning. On a real-world manipulation task specified by natural language description, we find that these rewards improve the sample efficiency of autonomous RL and enable successful completion of the task in 20K online finetuning steps. Additionally, we demonstrate the robustness of the approach to reductions in the number of in-domain demonstrations used for pretraining, reaching comparable performance in 35K online finetuning steps.
arxiv情報
著者 | Olivia Y. Lee,Annie Xie,Kuan Fang,Karl Pertsch,Chelsea Finn |
発行日 | 2024-07-14 21:41:29+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google