要約
オブジェクトの再配置はロボットと環境の相互作用において極めて重要であり、身体化された AI の重要な機能を表します。
この論文では、シーン表現としてシーン グラフを使用した粗密スキームを利用する新しい再配置フレームワークである SG-Bot を紹介します。
既知の目標事前分布やゼロショットの大規模モデルに依存する以前の方法とは異なり、SG-Bot は軽量、リアルタイム、およびユーザー制御可能な特性を例示し、常識的な知識の考慮と自動生成機能をシームレスに融合させます。
SG-Bot は、観察、想像力、実行という 3 つの手順を採用して、タスクに適切に対処します。
最初に、観察中に雑然としたシーンからオブジェクトが識別され、抽出されます。
これらのオブジェクトは、常識的な基準またはユーザー定義の基準に従って、まず大まかに編成され、シーン グラフ内に描画されます。
次に、このシーン グラフは生成モデルに情報を与え、初期シーンからの形状情報とオブジェクトのセマンティクスを考慮して、きめの細かいゴール シーンを形成します。
最後に実行にあたっては、初期シーンと想定されたゴールシーンを照合してロボットの動作方針を策定します。
実験結果は、SG-Bot が競合他社よりも大幅に優れていることを示しています。
要約(オリジナル)
Object rearrangement is pivotal in robotic-environment interactions, representing a significant capability in embodied AI. In this paper, we present SG-Bot, a novel rearrangement framework that utilizes a coarse-to-fine scheme with a scene graph as the scene representation. Unlike previous methods that rely on either known goal priors or zero-shot large models, SG-Bot exemplifies lightweight, real-time, and user-controllable characteristics, seamlessly blending the consideration of commonsense knowledge with automatic generation capabilities. SG-Bot employs a three-fold procedure–observation, imagination, and execution–to adeptly address the task. Initially, objects are discerned and extracted from a cluttered scene during the observation. These objects are first coarsely organized and depicted within a scene graph, guided by either commonsense or user-defined criteria. Then, this scene graph subsequently informs a generative model, which forms a fine-grained goal scene considering the shape information from the initial scene and object semantics. Finally, for execution, the initial and envisioned goal scenes are matched to formulate robotic action policies. Experimental results demonstrate that SG-Bot outperforms competitors by a large margin.
arxiv情報
著者 | Guangyao Zhai,Xiaoni Cai,Dianye Huang,Yan Di,Fabian Manhardt,Federico Tombari,Nassir Navab,Benjamin Busam |
発行日 | 2024-03-24 17:19:14+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google