NVSPolicy: Adaptive Novel-View Synthesis for Generalizable Language-Conditioned Policy Learning

要約

深い生成モデルの最近の進歩は、前例のないゼロショット一般化機能を示しており、構造化されていない環境でのロボット操作の大きな可能性を提供します。
シーンの部分的な観察を考えると、深い生成モデルは目に見えない領域を生成し、したがってより多くのコンテキストを提供し、目に見えない環境全体でロボットの能力を高めることができます。
ただし、生成された画像の視覚的アーティファクトとポリシー学習におけるマルチモーダル機能の非効率的な統合により、この方向は未解決の課題のままです。
適応性のあるノベルビュー合成モジュールを階層ポリシーネットワークと結びつける一般化可能な言語条件付きポリシー学習方法であるNVSpolicyを紹介します。
入力画像が与えられた場合、nvSpolicyは有益な視点を動的に選択し、視覚的コンテキストを豊かにするための適応型の視点画像を合成します。
不完全な合成画像の影響を緩和するために、視覚機能をセマンティック機能と残りの機能に解き放つサイクル一貫性のあるVAEメカニズムを採用します。
2つの機能は、それぞれ階層ポリシーネットワークに供給されます。セマンティック機能は、高レベルのメタスキル選択を通知し、残りの機能は低レベルのアクションの推定をガイドします。
さらに、提案された方法を効率的にするためのいくつかの実用的なメカニズムを提案します。
カルバンに関する広範な実験は、私たちの方法の最先端のパフォーマンスを示しています。
具体的には、すべてのタスクで平均成功率が90.4 \%であり、最近の方法を大きく上回っています。
アブレーション研究は、私たちの適応斬新視野合成パラダイムの重要性を確認しています。
さらに、実際のロボットプラットフォームでNVSpolicyを評価して、その実用的な適用性を実証します。

要約(オリジナル)

Recent advances in deep generative models demonstrate unprecedented zero-shot generalization capabilities, offering great potential for robot manipulation in unstructured environments. Given a partial observation of a scene, deep generative models could generate the unseen regions and therefore provide more context, which enhances the capability of robots to generalize across unseen environments. However, due to the visual artifacts in generated images and inefficient integration of multi-modal features in policy learning, this direction remains an open challenge. We introduce NVSPolicy, a generalizable language-conditioned policy learning method that couples an adaptive novel-view synthesis module with a hierarchical policy network. Given an input image, NVSPolicy dynamically selects an informative viewpoint and synthesizes an adaptive novel-view image to enrich the visual context. To mitigate the impact of the imperfect synthesized images, we adopt a cycle-consistent VAE mechanism that disentangles the visual features into the semantic feature and the remaining feature. The two features are then fed into the hierarchical policy network respectively: the semantic feature informs the high-level meta-skill selection, and the remaining feature guides low-level action estimation. Moreover, we propose several practical mechanisms to make the proposed method efficient. Extensive experiments on CALVIN demonstrate the state-of-the-art performance of our method. Specifically, it achieves an average success rate of 90.4\% across all tasks, greatly outperforming the recent methods. Ablation studies confirm the significance of our adaptive novel-view synthesis paradigm. In addition, we evaluate NVSPolicy on a real-world robotic platform to demonstrate its practical applicability.

arxiv情報

著者 Le Shi,Yifei Shi,Xin Xu,Tenglong Liu,Junhua Xi,Chengyuan Chen
発行日 2025-05-15 14:51:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク