EquivAct: SIM(3)-Equivariant Visuomotor Policies beyond Rigid Object Manipulation

要約

ロボットがキッチンタオルの折り方をマスターすれば、大きなビーチタオルの折り方もマスターできると期待されます。
ただし、データ拡張に依存する既存のポリシー学習方法では、依然としてそのような一般化が保証されていません。
私たちの洞察は、視覚的なオブジェクト表現とポリシー アーキテクチャの両方に等価性を追加することです。
私たちは、可能なすべてのオブジェクトの変換、3D 回転、および構築によるスケールにわたる一般化を保証する SIM(3) 等変ネットワーク構造を利用する EquivAct を提案します。
EquivAct は 2 つのフェーズでトレーニングされます。
まず、シミュレートされたシーン点群上で SIM(3) と同等の視覚表現を事前トレーニングします。
次に、少量のソース タスクのデモンストレーションを使用して、SIM(3) 等価視覚運動ポリシーを学習します。
私たちは、学習されたポリシーが、規模、位置、方向においてデモンストレーションとは実質的に異なるオブジェクトに直接伝達されることを示します。
以前の研究で考慮された典型的な剛体操作タスクを超えて、変形可能なオブジェクトと多関節オブジェクトを含む 3 つの操作タスクでメソッドを評価します。
シミュレーションと現実の両方で実験を行います。
実際のロボット実験の場合、私たちの方法では卓上タスクの 20 人の人間によるデモンストレーションを使用し、ゼロショットをさらに大規模なセットアップでのモバイル操作タスクに移行します。
実験により、私たちの対照的な事前トレーニング手順と同等のアーキテクチャが以前の研究に比べて大幅な改善をもたらすことが確認されました。
プロジェクト Web サイト: https://equivact.github.io

要約(オリジナル)

If a robot masters folding a kitchen towel, we would expect it to master folding a large beach towel. However, existing policy learning methods that rely on data augmentation still don’t guarantee such generalization. Our insight is to add equivariance to both the visual object representation and policy architecture. We propose EquivAct which utilizes SIM(3)-equivariant network structures that guarantee generalization across all possible object translations, 3D rotations, and scales by construction. EquivAct is trained in two phases. We first pre-train a SIM(3)-equivariant visual representation on simulated scene point clouds. Then, we learn a SIM(3)-equivariant visuomotor policy using a small amount of source task demonstrations. We show that the learned policy directly transfers to objects that substantially differ from demonstrations in scale, position, and orientation. We evaluate our method in three manipulation tasks involving deformable and articulated objects, going beyond typical rigid object manipulation tasks considered in prior work. We conduct experiments both in simulation and in reality. For real robot experiments, our method uses 20 human demonstrations of a tabletop task and transfers zero-shot to a mobile manipulation task in a much larger setup. Experiments confirm that our contrastive pre-training procedure and equivariant architecture offer significant improvements over prior work. Project website: https://equivact.github.io

arxiv情報

著者 Jingyun Yang,Congyue Deng,Jimmy Wu,Rika Antonova,Leonidas Guibas,Jeannette Bohg
発行日 2024-05-14 13:38:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク