Learning to Explore Informative Trajectories and Samples for Embodied Perception

要約

私たちは、知覚モデル、特に大規模なインターネット画像でトレーニングされたモデルの大幅な進歩を目の当たりにしています。
ただし、これらの知覚モデルを目に見えない具現化されたタスクに効率的に一般化することは十分に研究されておらず、さまざまな関連アプリケーション (ホーム ロボットなど) に役立ちます。
事前に収集された画像でトレーニングされた静的な知覚方法とは異なり、具現化されたエージェントは環境内を動き回り、任意の視点からオブジェクトの画像を取得できます。
したがって、有益なトレーニング サンプルを収集するための探索ポリシーと収集方法を効率的に学習することが、このタスクの鍵となります。
これを行うには、最初に 3D セマンティック分布マップを構築して、セマンティック分布の不一致とセマンティック分布の不確実性報酬を導入することにより、自己管理型の探索ポリシーをトレーニングします。
マップは多視点観測から生成されており、なじみのない視点からの誤認の影響を弱めることができることに注意してください。
次に、エージェントは、視点全体で異なる意味分布を持つオブジェクト、または不確実な意味分布を持つオブジェクトを探索するように勧められます。
探索された有益な軌跡を使用して、意味分布の不確実性に基づいて軌跡上のハードサンプルを選択し、正しく識別できる不要な観測を減らすことを提案します。
実験は、私たちの方法で微調整された知覚モデルが、他の探索ポリシーでトレーニングされたベースラインよりも優れていることを示しています。
さらに、実際のロボット実験でこの方法の堅牢性を示します。

要約(オリジナル)

We are witnessing significant progress on perception models, specifically those trained on large-scale internet images. However, efficiently generalizing these perception models to unseen embodied tasks is insufficiently studied, which will help various relevant applications (e.g., home robots). Unlike static perception methods trained on pre-collected images, the embodied agent can move around in the environment and obtain images of objects from any viewpoints. Therefore, efficiently learning the exploration policy and collection method to gather informative training samples is the key to this task. To do this, we first build a 3D semantic distribution map to train the exploration policy self-supervised by introducing the semantic distribution disagreement and the semantic distribution uncertainty rewards. Note that the map is generated from multi-view observations and can weaken the impact of misidentification from an unfamiliar viewpoint. Our agent is then encouraged to explore the objects with different semantic distributions across viewpoints, or uncertain semantic distributions. With the explored informative trajectories, we propose to select hard samples on trajectories based on the semantic distribution uncertainty to reduce unnecessary observations that can be correctly identified. Experiments show that the perception model fine-tuned with our method outperforms the baselines trained with other exploration policies. Further, we demonstrate the robustness of our method in real-robot experiments.

arxiv情報

著者 Ya Jing,Tao Kong
発行日 2023-03-20 08:20:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク