End-to-End (Instance)-Image Goal Navigation through Correspondence as an Emergent Phenomenon

要約

目標指向のビジュアル ナビゲーションに関する最近の研究は、シミュレートされた環境での大規模な機械学習に頼っています。
主な課題は、目に見えない環境に一般化できるコンパクトな表現を学習することと、高次元の入力で推論できる大容量の知覚モジュールを学習することにあります。
後者は、目標がカテゴリ (「ObjectNav」) としてではなく、サンプル画像 (「ImageNav」) として指定されている場合に特に困難です。これは、認識モジュールが、根底にある視覚的対応問題を解決するために必要な比較戦略を学習する必要があるためです。
これは、報酬だけでは、または標準的な補助タスクでは困難であることが示されています。
私たちは、一連の 2 つの口実タスクを通じてこの問題に対処します。これらのタスクは、知覚における主なボトルネックの 1 つであると主張する、非常に広いベースラインの相対姿勢推定と、複雑なシーンにおける可視性予測の事前処理として機能します。
最初の口実タスクであるクロスビュー補完は、根底にある視覚的対応問題の代理であり、2 番目のタスクは目標の検出と発見に直接対処します。
我々は、大容量両眼ViTモデルを備えた新しいデュアルエンコーダを提案し、トレーニング信号から対応解が自然に現れることを示します。
実験では、ImageNav と Instance-ImageNav バリアントの 2 つのベンチマークで大幅な改善と SOTA パフォーマンスが示されており、カメラの本質と高さが観測と目標の間で異なります。

要約(オリジナル)

Most recent work in goal oriented visual navigation resorts to large-scale machine learning in simulated environments. The main challenge lies in learning compact representations generalizable to unseen environments and in learning high-capacity perception modules capable of reasoning on high-dimensional input. The latter is particularly difficult when the goal is not given as a category (‘ObjectNav’) but as an exemplar image (‘ImageNav’), as the perception module needs to learn a comparison strategy requiring to solve an underlying visual correspondence problem. This has been shown to be difficult from reward alone or with standard auxiliary tasks. We address this problem through a sequence of two pretext tasks, which serve as a prior for what we argue is one of the main bottleneck in perception, extremely wide-baseline relative pose estimation and visibility prediction in complex scenes. The first pretext task, cross-view completion is a proxy for the underlying visual correspondence problem, while the second task addresses goal detection and finding directly. We propose a new dual encoder with a large-capacity binocular ViT model and show that correspondence solutions naturally emerge from the training signals. Experiments show significant improvements and SOTA performance on the two benchmarks, ImageNav and the Instance-ImageNav variant, where camera intrinsics and height differ between observation and goal.

arxiv情報

著者 Guillaume Bono,Leonid Antsfeld,Boris Chidlovskii,Philippe Weinzaepfel,Christian Wolf
発行日 2023-09-28 17:41:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク