Learning Generalizable Manipulation Policies with Object-Centric 3D Representations

要約

オブジェクト中心および 3D 事前分布を使用して堅牢なポリシーを学習するための模倣学習手法である GROOT を紹介します。
GROOT は、ビジョンベースの操作のための初期トレーニング条件を超えて一般化するポリシーを構築します。
背景の変化やカメラ ビューに対して堅牢なオブジェクト中心の 3D 表現を構築し、トランスフォーマー ベースのポリシーを使用してこれらの表現を推論します。
さらに、テスト時にポリシーを新しいオブジェクトに一般化できるようにするセグメンテーション対応モデルを導入します。
包括的な実験を通じて、シミュレートされた環境と現実世界の環境における知覚の変化に対する GROOT ポリシーの堅牢性を検証します。
GROOT のパフォーマンスは、背景の変化、カメラの視点の移動、新しいオブジェクト インスタンスの存在に対する一般化において優れていますが、最先端のエンドツーエンド学習手法とオブジェクト提案ベースのアプローチはいずれも不十分です。
また、実際のロボットで GROOT ポリシーを広範に評価し、セットアップの非常に大幅な変更下での有効性を実証します。
その他のビデオとモデルの詳細は、付録とプロジェクト Web サイト: https://ut-austin-rpl.github.io/GROOT でご覧いただけます。

要約(オリジナル)

We introduce GROOT, an imitation learning method for learning robust policies with object-centric and 3D priors. GROOT builds policies that generalize beyond their initial training conditions for vision-based manipulation. It constructs object-centric 3D representations that are robust toward background changes and camera views and reason over these representations using a transformer-based policy. Furthermore, we introduce a segmentation correspondence model that allows policies to generalize to new objects at test time. Through comprehensive experiments, we validate the robustness of GROOT policies against perceptual variations in simulated and real-world environments. GROOT’s performance excels in generalization over background changes, camera viewpoint shifts, and the presence of new object instances, whereas both state-of-the-art end-to-end learning methods and object proposal-based approaches fall short. We also extensively evaluate GROOT policies on real robots, where we demonstrate the efficacy under very wild changes in setup. More videos and model details can be found in the appendix and the project website: https://ut-austin-rpl.github.io/GROOT .

arxiv情報

著者 Yifeng Zhu,Zhenyu Jiang,Peter Stone,Yuke Zhu
発行日 2023-10-22 18:51:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, cs.RO パーマリンク