A0: An Affordance-Aware Hierarchical Model for General Robotic Manipulation

要約

ロボット操作は、オブジェクトの相互作用の「「ここ」と「どのように」という空間アフォーダンスを理解する上で重要な課題に直面しています。
モジュラーベースおよびエンドツーエンドのアプローチを含む既存の方法には、多くの場合、堅牢な空間的推論機能が欠けています。
密な空間表現または軌道モデリングに焦点を当てた最近のポイントベースおよびフローベースのアフォーダンス方法とは異なり、操作タスクを高レベルの空間アフォーダンス理解と低レベルのアクション実行に分解する階層的なアフォーダンス認識拡散モデルであるA0を提案します。
A0は、コンタクトポイントと接触後の軌道を予測することにより、オブジェクト中心の空間アフォーダンスをキャプチャする具体化と存在するアフォーダンス表現を活用します。
A0は、100万個の接点データで事前に訓練され、注釈付きの軌跡で微調整されており、プラットフォーム間で一般化を可能にします。
重要なコンポーネントには、モーションアウェア機能抽出の位置オフセット注意と、正確な座標マッピングのための空間情報集約レイヤーが含まれます。
モデルの出力は、アクション実行モジュールによって実行されます。
複数のロボットシステム(Franka、Kinova、Realman、およびDobot)の実験は、複雑なタスクでA0の優れたパフォーマンスを示し、その効率、柔軟性、および実際の適用性を示しています。

要約(オリジナル)

Robotic manipulation faces critical challenges in understanding spatial affordances–the ‘where’ and ‘how’ of object interactions–essential for complex manipulation tasks like wiping a board or stacking objects. Existing methods, including modular-based and end-to-end approaches, often lack robust spatial reasoning capabilities. Unlike recent point-based and flow-based affordance methods that focus on dense spatial representations or trajectory modeling, we propose A0, a hierarchical affordance-aware diffusion model that decomposes manipulation tasks into high-level spatial affordance understanding and low-level action execution. A0 leverages the Embodiment-Agnostic Affordance Representation, which captures object-centric spatial affordances by predicting contact points and post-contact trajectories. A0 is pre-trained on 1 million contact points data and fine-tuned on annotated trajectories, enabling generalization across platforms. Key components include Position Offset Attention for motion-aware feature extraction and a Spatial Information Aggregation Layer for precise coordinate mapping. The model’s output is executed by the action execution module. Experiments on multiple robotic systems (Franka, Kinova, Realman, and Dobot) demonstrate A0’s superior performance in complex tasks, showcasing its efficiency, flexibility, and real-world applicability.

arxiv情報

著者 Rongtao Xu,Jian Zhang,Minghao Guo,Youpeng Wen,Haoting Yang,Min Lin,Jianzheng Huang,Zhe Li,Kaidong Zhang,Liqiong Wang,Yuxuan Kuang,Meng Cao,Feng Zheng,Xiaodan Liang
発行日 2025-04-21 02:13:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク