Affordance-Guided Reinforcement Learning via Visual Prompting

要約

強化学習 (RL) を備えたロボットは、報酬信号だけから幅広いスキルを学習できる可能性があります。
ただし、一般的な操作タスクで堅牢かつ高密度の報酬信号を取得することは依然として課題です。
既存の学習ベースのアプローチでは、タスク固有の報酬関数を学習するために、人間による成功と失敗のデモンストレーションなどの重要なデータが必要です。
最近では、物理的コンテキストで視覚的推論を実行し、操作タスクのための粗いロボットの動きを生成できる、ロボット工学のための大規模なマルチモーダル基礎モデルの採用も増えています。
この範囲の機能を動機として、この研究では、自律型 RL のビジョン言語モデル (VLM) によって形成された報酬を活用する方法である、キーポイントベースの改善のためのアフォーダンス ガイダンス (KAGI) を紹介します。
最先端の VLM は、ゼロショットのキーポイントを通じてアフォーダンスに関する印象的な推論を実証しており、私たちはこれらを使用して、自律的なロボット学習を導く高密度の報酬を定義します。
自然言語記述によって指定された現実世界の操作タスクにおいて、KAGI は自律 RL のサンプル効率を向上させ、20K のオンライン微調整ステップでタスクを正常に完了できるようにします。
さらに、事前トレーニングに使用されるドメイン内デモンストレーションの数の削減に対する KAGI の堅牢性を実証し、35,000 のオンライン微調整ステップで同様のパフォーマンスに達します。
プロジェクトのウェブサイト: https://sites.google.com/view/affordance-guided-rl

要約(オリジナル)

Robots equipped with reinforcement learning (RL) have the potential to learn a wide range of skills solely from a reward signal. However, obtaining a robust and dense reward signal for general manipulation tasks remains a challenge. Existing learning-based approaches require significant data, such as human demonstrations of success and failure, to learn task-specific reward functions. Recently, there is also a growing adoption of large multi-modal foundation models for robotics that can perform visual reasoning in physical contexts and generate coarse robot motions for manipulation tasks. Motivated by this range of capability, in this work, we present Keypoint-based Affordance Guidance for Improvements (KAGI), a method leveraging rewards shaped by vision-language models (VLMs) for autonomous RL. State-of-the-art VLMs have demonstrated impressive reasoning about affordances through keypoints in zero-shot, and we use these to define dense rewards that guide autonomous robotic learning. On real-world manipulation tasks specified by natural language descriptions, KAGI improves the sample efficiency of autonomous RL and enables successful task completion in 20K online fine-tuning steps. Additionally, we demonstrate the robustness of KAGI to reductions in the number of in-domain demonstrations used for pre-training, reaching similar performance in 35K online fine-tuning steps. Project website: https://sites.google.com/view/affordance-guided-rl

arxiv情報

著者 Olivia Y. Lee,Annie Xie,Kuan Fang,Karl Pertsch,Chelsea Finn
発行日 2024-10-02 00:40:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO パーマリンク