要約
非構造化環境で操作できる一般的なロボット システムの開発は、重大な課題です。
視覚言語モデル (VLM) は高レベルの常識的推論には優れていますが、正確な操作タスクに必要なきめの細かい 3D 空間の理解を欠いています。
ロボット データセットで VLM を微調整して視覚言語アクション モデル (VLA) を作成することは潜在的な解決策ですが、高額なデータ収集コストと一般化の問題によって妨げられています。
これらの課題に対処するために、VLM の高レベルの推論と操作に必要な低レベルの精度の間のギャップを埋める、新しいオブジェクト中心の表現を提案します。
私たちの重要な洞察は、機能的アフォーダンスによって定義されるオブジェクトの標準空間が、点や方向などのインタラクション プリミティブを記述するための構造化された意味論的に意味のある方法を提供するということです。
これらのプリミティブはブリッジとして機能し、VLM の常識的な推論を実用的な 3D 空間制約に変換します。
これに関連して、デュアル閉ループ、オープン語彙ロボット操作システムを導入します。1 つのループはプリミティブ リサンプリング、インタラクション レンダリング、VLM チェックによる高レベルの計画用で、もう 1 つは 6D ポーズ トラッキングによる低レベルの実行用です。
この設計により、VLM の微調整を必要とせずに、堅牢なリアルタイム制御が保証されます。
広範な実験により、さまざまなロボット操作タスクにわたる強力なゼロショット一般化が実証され、大規模なシミュレーション データ生成を自動化するこのアプローチの可能性が強調されています。
要約(オリジナル)
The development of general robotic systems capable of manipulating in unstructured environments is a significant challenge. While Vision-Language Models(VLM) excel in high-level commonsense reasoning, they lack the fine-grained 3D spatial understanding required for precise manipulation tasks. Fine-tuning VLM on robotic datasets to create Vision-Language-Action Models(VLA) is a potential solution, but it is hindered by high data collection costs and generalization issues. To address these challenges, we propose a novel object-centric representation that bridges the gap between VLM’s high-level reasoning and the low-level precision required for manipulation. Our key insight is that an object’s canonical space, defined by its functional affordances, provides a structured and semantically meaningful way to describe interaction primitives, such as points and directions. These primitives act as a bridge, translating VLM’s commonsense reasoning into actionable 3D spatial constraints. In this context, we introduce a dual closed-loop, open-vocabulary robotic manipulation system: one loop for high-level planning through primitive resampling, interaction rendering and VLM checking, and another for low-level execution via 6D pose tracking. This design ensures robust, real-time control without requiring VLM fine-tuning. Extensive experiments demonstrate strong zero-shot generalization across diverse robotic manipulation tasks, highlighting the potential of this approach for automating large-scale simulation data generation.
arxiv情報
著者 | Mingjie Pan,Jiyao Zhang,Tianshu Wu,Yinghao Zhao,Wenlong Gao,Hao Dong |
発行日 | 2025-01-07 14:50:33+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google