GRAPPA: Generalizing and Adapting Robot Policies via Online Agentic Guidance

要約

行動のクローン化や強化学習などのロボット学習アプローチは、特定の環境での人間のデモンストレーションからロボットスキルを合成することに大きな期待を示しています。
ただし、これらのアプローチでは、タスク固有のデモンストレーションまたは複雑なシミュレーション環境の設計が必要であることが多く、目に見えない実際の設定の一般化可能で堅牢なポリシーの開発が制限されます。
ロボット工学(LLM、VLMなど)の基礎モデルの使用における最近の進歩は、システムが大規模なインターネットデータから世界のセマンティクスを理解できるようにすることで大きな可能性を示しています。
ただし、この知識を使用して、ロボットシステムが世界の根底にあるダイナミクスを理解し、さまざまなタスクにわたってポリシーを一般化し、新しい環境にポリシーを適合させることができるというオープンな課題のままです。
これらの制限を緩和するために、ロボットの自己誘導と自己改善のためのエージェントフレームワークを提案します。これは、高レベルのアドバイザー、接地エージェント、監視エージェント、ロボットエージェントなどの一連の役割専門的な会話エージェントで構成されています。
当社のフレームワークは、環境内の関連するオブジェクトに基本ロボットポリシーを繰り返し根拠にし、視覚運動の手がかりを使用して、特定のロボットハードウェアプラットフォームの主観的な構成に不可知論のままでありながら、より望ましい状態にポリシーのアクション分布をオンラインにシフトします。
私たちのアプローチは、シミュレーションと現実世界の実験の両方で、追加の人間のデモや広範な探求を必要とせずに、操作ポリシーを効果的に導くことができることを実証して、シミュレーションと現実世界の実験の両方で達成できることを実証します。
https://agenticrobots.github.ioで入手可能なコードとビデオ

要約(オリジナル)

Robot learning approaches such as behavior cloning and reinforcement learning have shown great promise in synthesizing robot skills from human demonstrations in specific environments. However, these approaches often require task-specific demonstrations or designing complex simulation environments, which limits the development of generalizable and robust policies for unseen real-world settings. Recent advances in the use of foundation models for robotics (e.g., LLMs, VLMs) have shown great potential in enabling systems to understand the semantics in the world from large-scale internet data. However, it remains an open challenge to use this knowledge to enable robotic systems to understand the underlying dynamics of the world, to generalize policies across different tasks, and to adapt policies to new environments. To alleviate these limitations, we propose an agentic framework for robot self-guidance and self-improvement, which consists of a set of role-specialized conversational agents, such as a high-level advisor, a grounding agent, a monitoring agent, and a robotic agent. Our framework iteratively grounds a base robot policy to relevant objects in the environment and uses visuomotor cues to shift the action distribution of the policy to more desirable states, online, while remaining agnostic to the subjective configuration of a given robot hardware platform. We demonstrate that our approach can effectively guide manipulation policies to achieve significantly higher success rates, both in simulation and in real-world experiments, without the need for additional human demonstrations or extensive exploration. Code and videos available at: https://agenticrobots.github.io

arxiv情報

著者 Arthur Bucker,Pablo Ortega-Kral,Jonathan Francis,Jean Oh
発行日 2025-04-08 16:32:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO パーマリンク