View-Invariant Policy Learning via Zero-Shot Novel View Synthesis

要約

大規模な視覚運動ポリシー学習は、一般化可能な操作システムの開発に向けた有望なアプローチです。
しかし、多様な実施形態、環境、観察方法に展開できる政策は依然としてとらえどころのないものである。
この研究では、世界の大規模な視覚データからの知識をどのように使用して、一般化可能な操作のための変動の 1 つの軸、つまり観察の視点に対処できるかを調査します。
具体的には、単一画像の新規ビュー合成モデルを研究します。このモデルは、単一の入力画像が与えられた場合に、別のカメラ視点から同じシーンの画像をレンダリングすることによって 3D を認識したシーンレベルの事前分布を学習します。
多様なロボット データに実際に適用するには、これらのモデルはゼロショットで動作し、目に見えないタスクや環境に対してビュー合成を実行する必要があります。
私たちは、ビュー合成拡張 (VISTA) と呼ばれる単純なデータ拡張スキーム内でビュー合成モデルを実証的に分析し、単一視点のデモンストレーション データから視点不変ポリシーを学習する機能を理解します。
分布外のカメラ視点に対する私たちの方法でトレーニングされたポリシーの堅牢性を評価すると、シミュレートされた操作タスクと現実世界の操作タスクの両方でベースラインを上回るパフォーマンスが得られることがわかりました。
ビデオと追加のビジュアライゼーションは、https://s-tian.github.io/projects/vista で入手できます。

要約(オリジナル)

Large-scale visuomotor policy learning is a promising approach toward developing generalizable manipulation systems. Yet, policies that can be deployed on diverse embodiments, environments, and observational modalities remain elusive. In this work, we investigate how knowledge from large-scale visual data of the world may be used to address one axis of variation for generalizable manipulation: observational viewpoint. Specifically, we study single-image novel view synthesis models, which learn 3D-aware scene-level priors by rendering images of the same scene from alternate camera viewpoints given a single input image. For practical application to diverse robotic data, these models must operate zero-shot, performing view synthesis on unseen tasks and environments. We empirically analyze view synthesis models within a simple data-augmentation scheme that we call View Synthesis Augmentation (VISTA) to understand their capabilities for learning viewpoint-invariant policies from single-viewpoint demonstration data. Upon evaluating the robustness of policies trained with our method to out-of-distribution camera viewpoints, we find that they outperform baselines in both simulated and real-world manipulation tasks. Videos and additional visualizations are available at https://s-tian.github.io/projects/vista.

arxiv情報

著者 Stephen Tian,Blake Wulfe,Kyle Sargent,Katherine Liu,Sergey Zakharov,Vitor Guizilini,Jiajun Wu
発行日 2024-09-05 16:39:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO パーマリンク