要約
トランスアーキテクチャは、自然言語の指示と3D観測を共同で処理することにより、デモンストレーションから言語条件付きのマルチタスク3Dオープンループ操作ポリシーを効果的に学習できます。
ただし、ロボットポリシーと言語の両方の指示は本質的に豊富な3D幾何学的構造をエンコードしますが、標準的な変圧器には幾何学的な一貫性の組み込み保証がなく、多くの場合、シーンのSE(3)変換の下で予測不可能な動作をもたらします。
この論文では、政策と言語の両方で共有された主要な構造的特性としてのSE(3)等量を活用し、Equact-A Novel(3)Equivariant Multi-Taskトランスを提案します。
Equactは、理論的にはSE(3)等量であることが保証され、2つの重要なコンポーネントで構成されています。(1)ポリシー推論のための効率的なSE(3)拡張点クラウドベースのU-NET、および(2)se(3)invariant特徴的な線形変調(IFILM)層。
その空間一般化能力を評価するために、SE(3)とSE(2)の両方のシーンの摂動の両方を備えた18のRLBenchシミュレーションタスクと4つの物理タスクでEquactをベンチマークします。
Equactは、これらのシミュレーションと物理的なタスク全体で最先端を実行します。
要約(オリジナル)
Transformer architectures can effectively learn language-conditioned, multi-task 3D open-loop manipulation policies from demonstrations by jointly processing natural language instructions and 3D observations. However, although both the robot policy and language instructions inherently encode rich 3D geometric structures, standard transformers lack built-in guarantees of geometric consistency, often resulting in unpredictable behavior under SE(3) transformations of the scene. In this paper, we leverage SE(3) equivariance as a key structural property shared by both policy and language, and propose EquAct-a novel SE(3)-equivariant multi-task transformer. EquAct is theoretically guaranteed to be SE(3) equivariant and consists of two key components: (1) an efficient SE(3)-equivariant point cloud-based U-net with spherical Fourier features for policy reasoning, and (2) SE(3)-invariant Feature-wise Linear Modulation (iFiLM) layers for language conditioning. To evaluate its spatial generalization ability, we benchmark EquAct on 18 RLBench simulation tasks with both SE(3) and SE(2) scene perturbations, and on 4 physical tasks. EquAct performs state-of-the-art across these simulation and physical tasks.
arxiv情報
著者 | Xupeng Zhu,Yu Qi,Yizhe Zhu,Robin Walters,Robert Platt |
発行日 | 2025-05-27 15:46:10+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google