要約
ロボット操作の重要な課題は、強い空間的理解、3D形状、オブジェクト関係、ロボットの具体化について推論する能力を備えたポリシーモデルの開発にあります。
既存の方法はしばしば不足しています。3Dポイントクラウドモデルにはセマンティックな抽象化がありませんが、2D画像エンコーダーは空間的推論に苦労しています。
これに対処するために、2つの補完的な観点から空間的理解を明示的に強化する新しい拡散ベースのポリシーフレームワークであるSEM(空間強化操作モデル)を提案します。
空間エンハンサーは、3D幾何学的コンテキストで視覚表現を増強しますが、ロボット状態エンコーダーは、共同依存関係のグラフベースモデリングを介して具体化された構造をキャプチャします。
これらのモジュールを統合することにより、SEMは空間的理解を大幅に改善し、既存のベースラインを上回る多様なタスク全体で堅牢で一般化可能な操作につながります。
要約(オリジナル)
A key challenge in robot manipulation lies in developing policy models with strong spatial understanding, the ability to reason about 3D geometry, object relations, and robot embodiment. Existing methods often fall short: 3D point cloud models lack semantic abstraction, while 2D image encoders struggle with spatial reasoning. To address this, we propose SEM (Spatial Enhanced Manipulation model), a novel diffusion-based policy framework that explicitly enhances spatial understanding from two complementary perspectives. A spatial enhancer augments visual representations with 3D geometric context, while a robot state encoder captures embodiment-aware structure through graphbased modeling of joint dependencies. By integrating these modules, SEM significantly improves spatial understanding, leading to robust and generalizable manipulation across diverse tasks that outperform existing baselines.
arxiv情報
著者 | Xuewu Lin,Tianwei Lin,Lichao Huang,Hongyu Xie,Yiwei Jin,Keyu Li,Zhizhong Su |
発行日 | 2025-05-22 04:00:12+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google