RoboEXP: Action-Conditioned Scene Graph via Interactive Exploration for Robotic Manipulation

要約

ロボットは、未知の環境に適応してタスクに取り組むために、周囲を探索する必要があります。
これまでの研究では、環境のシーン グラフを構築することが提案されてきましたが、通常は環境が静的であると想定され、アクティブなインタラクションを必要とする領域が省略されています。
これにより、家庭やオフィス環境でより複雑なタスクを処理するロボットの能力が大幅に制限されます。テーブルをセットアップする前に、ロボットは引き出しやキャビネットを調べて、すべての器具や調味料を見つけなければなりません。
この研究では、ロボットが自律的に環境を探索し、基礎となる環境の構造を捕捉するアクション条件付きシーン グラフ (ACSG) を生成する、インタラクティブ シーン探索という新しいタスクを導入します。
ACSG は、ジオメトリやセマンティクスなどの低レベルの情報と、シーン内のさまざまなエンティティ間のアクションが条件付けされた関係などの高レベルの情報の両方を考慮します。
この目的を達成するために、大規模マルチモーダル モデル (LMM) とシステムの機能を強化する明示的メモリ設計を組み込んだロボット探索 (RoboEXP) システムを紹介します。
ロボットは、オブジェクトをどのように探索するかを推論し、対話プロセスを通じて新しい情報を蓄積し、ACSG を段階的に構築します。
私たちは、ゼロショット方式でさまざまな現実世界の設定にシステムを適用し、これまで見たことのない環境の探索とモデリングにおけるその有効性を実証しています。
構築された ACSG を活用して、剛体で多関節オブジェクト、マトリョーシカ人形のような入れ子になったオブジェクト、布のような変形可能なオブジェクトを含む現実世界の幅広い操作タスクを容易にする RoboEXP システムの有効性と効率を示します。

要約(オリジナル)

Robots need to explore their surroundings to adapt to and tackle tasks in unknown environments. Prior work has proposed building scene graphs of the environment but typically assumes that the environment is static, omitting regions that require active interactions. This severely limits their ability to handle more complex tasks in household and office environments: before setting up a table, robots must explore drawers and cabinets to locate all utensils and condiments. In this work, we introduce the novel task of interactive scene exploration, wherein robots autonomously explore environments and produce an action-conditioned scene graph (ACSG) that captures the structure of the underlying environment. The ACSG accounts for both low-level information, such as geometry and semantics, and high-level information, such as the action-conditioned relationships between different entities in the scene. To this end, we present the Robotic Exploration (RoboEXP) system, which incorporates the Large Multimodal Model (LMM) and an explicit memory design to enhance our system’s capabilities. The robot reasons about what and how to explore an object, accumulating new information through the interaction process and incrementally constructing the ACSG. We apply our system across various real-world settings in a zero-shot manner, demonstrating its effectiveness in exploring and modeling environments it has never seen before. Leveraging the constructed ACSG, we illustrate the effectiveness and efficiency of our RoboEXP system in facilitating a wide range of real-world manipulation tasks involving rigid, articulated objects, nested objects like Matryoshka dolls, and deformable objects like cloth.

arxiv情報

著者 Hanxiao Jiang,Binghao Huang,Ruihai Wu,Zhuoran Li,Shubham Garg,Hooshang Nayyeri,Shenlong Wang,Yunzhu Li
発行日 2024-02-23 18:27:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO パーマリンク