EquivAct: SIM(3)-Equivariant Visuomotor Policies beyond Rigid Object Manipulation

要約

ロボットがキッチンタオルの折り方をマスターしたら、ビーチタオルの折り方もマスターすることが期待されます。
ただし、データセットの拡張に依存する政策学習の既存の研究では、このレベルの一般化を達成するにはまだ限界があります。
私たちの洞察は、視覚的なオブジェクト表現とポリシー アーキテクチャの両方に等価性を追加することです。
私たちは、可能なすべてのオブジェクトの変換、3D 回転、および構築によるスケールにわたる一般化を保証する SIM(3) 等変ネットワーク構造を利用する EquivAct を提案します。
EquivAct のトレーニングは 2 つのフェーズで行われます。
まず、シミュレートされたシーン点群上で SIM(3) と等価な視覚表現を事前トレーニングします。
次に、少量のソース タスクのデモンストレーションを使用して、事前トレーニングされた視覚表現に基づいて SIM(3) 等価視覚運動ポリシーを学習します。
トレーニング後、学習されたポリシーが、ソースのデモンストレーションとは規模、位置、方向が大幅に異なるオブジェクトに直接転送されることを示します。
シミュレーションでは、変形可能オブジェクトと多関節オブジェクトを含む 3 つの操作タスクでメソッドを評価することで、以前の研究で考慮されていた典型的な剛体オブジェクト操作タスクを超えています。
私たちの方法は、等変アーキテクチャを使用しない、または対照的な事前トレーニング手順を使用しない以前の研究よりも優れていることを示します。
また、3 つの実際のロボット タスクに関する定量的および定性的な実験も示します。ロボットは卓上タスクの 20 回のデモン​​ストレーションを観察し、ゼロショットをはるかに大規模なセットアップでのモバイル操作タスクに移行します。
プロジェクト Web サイト: https://equivact.github.io

要約(オリジナル)

If a robot masters folding a kitchen towel, we would also expect it to master folding a beach towel. However, existing works for policy learning that rely on data set augmentations are still limited in achieving this level of generalization. Our insight is to add equivariance to both the visual object representation and policy architecture. We propose EquivAct which utilizes SIM(3)-equivariant network structures that guarantee generalization across all possible object translations, 3D rotations, and scales by construction. Training of EquivAct is done in two phases. We first pre-train a SIM(3)-equivariant visual representation on simulated scene point clouds. Then, we learn a SIM(3)-equivariant visuomotor policy on top of the pre-trained visual representation using a small amount of source task demonstrations. We demonstrate that after training, the learned policy directly transfers to objects that substantially differ in scale, position and orientation from the source demonstrations. In simulation, we evaluate our method in three manipulation tasks involving deformable and articulated objects thereby going beyond the typical rigid object manipulation tasks that prior works considered. We show that our method outperforms prior works that do not use equivariant architectures or do not use our contrastive pre-training procedure. We also show quantitative and qualitative experiments on three real robot tasks, where the robot watches twenty demonstrations of a tabletop task and transfers zero-shot to a mobile manipulation task in a much larger setup. Project website: https://equivact.github.io

arxiv情報

著者 Jingyun Yang,Congyue Deng,Jimmy Wu,Rika Antonova,Leonidas Guibas,Jeannette Bohg
発行日 2023-10-24 17:59:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク