Domain-Conditioned Scene Graphs for State-Grounded Task Planning

要約

最近のロボットタスク計画フレームワークは、GPT-4Vなどの大規模なマルチモーダルモデル(LMM)を統合しています。
このようなモデルの接地問題に対処するために、パイプラインを知覚状態の接地とその後の状態ベースの計画に分割することが提案されています。
この作業で示すように、LMMベースのアプローチの状態の接地能力は、粒状、構造化された、ドメイン固有のシーンの理解の弱点によって依然として制限されています。
この欠点に対処するために、ドメイン条件付けされたシーングラフをシーン表現として特徴とする、より構造化された状態接地フレームワークを開発します。
PDDLなどの古典的な計画言語では、象徴的な状態に直接マッピングできるため、このような表現は本質的に実用的であることを示します。
ドメイン条件付けされたシーングラフ生成が、ドメイン関連のオブジェクト検出の上にドメイン固有の述語を分類する軽量のビジョン言語アプローチで実装される状態接地フレームワークのインスタンス化を提供します。
3つのドメインで評価されたこのアプローチは、以前のLMMベースのアプローチと比較して、状態推定の精度とタスク計画の成功率が大幅に高くなります。

要約(オリジナル)

Recent robotic task planning frameworks have integrated large multimodal models (LMMs) such as GPT-4V. To address grounding issues of such models, it has been suggested to split the pipeline into perceptional state grounding and subsequent state-based planning. As we show in this work, the state grounding ability of LMM-based approaches is still limited by weaknesses in granular, structured, domain-specific scene understanding. To address this shortcoming, we develop a more structured state grounding framework that features a domain-conditioned scene graph as its scene representation. We show that such representation is actionable in nature as it is directly mappable to a symbolic state in classical planning languages such as PDDL. We provide an instantiation of our state grounding framework where the domain-conditioned scene graph generation is implemented with a lightweight vision-language approach that classifies domain-specific predicates on top of domain-relevant object detections. Evaluated across three domains, our approach achieves significantly higher state estimation accuracy and task planning success rates compared to the previous LMM-based approaches.

arxiv情報

著者 Jonas Herzog,Jiangpin Liu,Yue Wang
発行日 2025-04-09 07:51:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク