3D Equivariant Visuomotor Policy Learning via Spherical Projection

要約

等量モデルは最近、拡散ポリシーのデータ効率を大きく改善することが示されています。
ただし、この方向を調査した以前の作業は、主にワークスペースに固定された複数のカメラによって生成されたポイントクラウド入力に焦点を当てていました。
このタイプのポイントクラウド入力は、主要な入力モダリティがGOPROのような目の中のRGBカメラである現在の設定と互換性がありません。
このペーパーでは、2D RGBカメラ画像から球体に機能を投影するプロセスAプロセスを拡散ポリシーモデルに組み込むことにより、このギャップを閉じます。
これにより、ポイントクラウドを明示的に再構築することなく、(3)の対称性について推論することができます。
私たちの方法は、パフォーマンスとサンプル効率の両方の点で一貫して強力なベースラインを上回ることを実証するシミュレーションと現実世界の両方で広範な実験を実行します。
私たちの仕事は、単眼RGB入力のみを使用して機能するロボット操作のためのSO(3)equivariantポリシー学習フレームワークです。

要約(オリジナル)

Equivariant models have recently been shown to improve the data efficiency of diffusion policy by a significant margin. However, prior work that explored this direction focused primarily on point cloud inputs generated by multiple cameras fixed in the workspace. This type of point cloud input is not compatible with the now-common setting where the primary input modality is an eye-in-hand RGB camera like a GoPro. This paper closes this gap by incorporating into the diffusion policy model a process that projects features from the 2D RGB camera image onto a sphere. This enables us to reason about symmetries in SO(3) without explicitly reconstructing a point cloud. We perform extensive experiments in both simulation and the real world that demonstrate that our method consistently outperforms strong baselines in terms of both performance and sample efficiency. Our work is the first SO(3)-equivariant policy learning framework for robotic manipulation that works using only monocular RGB inputs.

arxiv情報

著者 Boce Hu,Dian Wang,David Klee,Heng Tian,Xupeng Zhu,Haojie Huang,Robert Platt,Robin Walters
発行日 2025-05-22 17:49:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク