要約
操作のための学習には、ポイントクラウドやRGB画像などの豊富な感覚情報にアクセスできるポリシーを使用する必要があります。
ポイントクラウドは、幾何学的構造を効率的にキャプチャし、模倣学習の操作タスクに不可欠になります。
対照的に、RGB画像は、特定のタスクにとって重要な豊富なテクスチャ情報とセマンティック情報を提供します。
両方のモダリティを融合するための既存のアプローチは、2D画像機能をポイントクラウドに割り当てます。
ただし、そのようなアプローチは、多くの場合、元の画像からグローバルなコンテキスト情報を失います。
この作業では、ポイントクラウドとRGBモダリティの両方の強度を効果的に組み合わせた新しい模倣学習方法であるFPV-NETを提案します。
私たちの方法は、適応層のノルムコンディショニングを使用して、グローバルおよびローカル画像トークンのポイントクラウドエンコーダーを条件付けし、両方のモダリティの有益な特性を活用します。
挑戦的なロボカサベンチマークに関する広範な実験を通じて、いずれかのモダリティだけに依存することの限界を示し、すべてのタスクで最新のパフォーマンスを達成することを示します。
要約(オリジナル)
Learning for manipulation requires using policies that have access to rich sensory information such as point clouds or RGB images. Point clouds efficiently capture geometric structures, making them essential for manipulation tasks in imitation learning. In contrast, RGB images provide rich texture and semantic information that can be crucial for certain tasks. Existing approaches for fusing both modalities assign 2D image features to point clouds. However, such approaches often lose global contextual information from the original images. In this work, we propose FPV-Net, a novel imitation learning method that effectively combines the strengths of both point cloud and RGB modalities. Our method conditions the point-cloud encoder on global and local image tokens using adaptive layer norm conditioning, leveraging the beneficial properties of both modalities. Through extensive experiments on the challenging RoboCasa benchmark, we demonstrate the limitations of relying on either modality alone and show that our method achieves state-of-the-art performance across all tasks.
arxiv情報
著者 | Atalay Donat,Xiaogang Jia,Xi Huang,Aleksandar Taranovic,Denis Blessing,Ge Li,Hongyi Zhou,Hanyi Zhang,Rudolf Lioutikov,Gerhard Neumann |
発行日 | 2025-02-19 09:04:01+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google