MPVO: Motion-Prior based Visual Odometry for PointGoal Navigation

要約

ビジュアル オドメトリ (VO) は、GPS センサーやコンパス センサーの信頼性が低く不正確な屋内環境において、身体化したエージェントの正確な目標点までのナビゲーションを可能にするために不可欠です。
ただし、従来の VO 手法は、ベースラインが広いシナリオでは課題に直面しています。推論中のロボットの高速動作と 1 秒あたりのフレーム数 (FPS) が低いため、パフォーマンスが妨げられ、ポイントからゴールまでのナビゲーションでドリフトや壊滅的な障害が発生します。
最近の深層学習された VO メソッドは堅牢なパフォーマンスを示しますが、トレーニング中のサンプルの非効率性に問題があります。
したがって、巨大なデータセットとコンピューティング リソースが必要になります。
そこで、エージェントが環境をナビゲートしている間に利用可能なモーション事前分布に基づいて、堅牢でサンプル効率の高い VO パイプラインを提案します。
これは、トレーニング不要のアクション事前ベースの幾何学的な VO モジュールで構成されており、粗い相対姿勢を推定します。このモジュールは、深層学習された VO モデルによって事前の動作としてさらに消費され、最終的にナビゲーション ポリシーで使用される精密な相対姿勢を生成します。

この戦略は、パイプラインがトレーニング中に最大 2 倍のサンプル効率を達成するのに役立ち、最先端の VO メソッドと比較して、ポイントゴールナビゲーションタスクで優れた精度と堅牢性を実証します。
AI-Habitat シミュレーターでは、ギブソン データセットの現実的な屋内環境が使用され、ナビゲーション メトリクス (成功/SPL など) とポーズ メトリクス (RPE/ATE など) を使用して提案されたアプローチを評価します。
この方法が、さまざまなソースからのモーション事前分布を利用して VO 推定を改善し、具体化されたナビゲーション タスクでより良い結果を達成できるという研究の方向性をさらに開くことを願っています。

要約(オリジナル)

Visual odometry (VO) is essential for enabling accurate point-goal navigation of embodied agents in indoor environments where GPS and compass sensors are unreliable and inaccurate. However, traditional VO methods face challenges in wide-baseline scenarios, where fast robot motions and low frames per second (FPS) during inference hinder their performance, leading to drift and catastrophic failures in point-goal navigation. Recent deep-learned VO methods show robust performance but suffer from sample inefficiency during training; hence, they require huge datasets and compute resources. So, we propose a robust and sample-efficient VO pipeline based on motion priors available while an agent is navigating an environment. It consists of a training-free action-prior based geometric VO module that estimates a coarse relative pose which is further consumed as a motion prior by a deep-learned VO model, which finally produces a fine relative pose to be used by the navigation policy. This strategy helps our pipeline achieve up to 2x sample efficiency during training and demonstrates superior accuracy and robustness in point-goal navigation tasks compared to state-of-the-art VO method(s). Realistic indoor environments of the Gibson dataset is used in the AI-Habitat simulator to evaluate the proposed approach using navigation metrics (like success/SPL) and pose metrics (like RPE/ATE). We hope this method further opens a direction of work where motion priors from various sources can be utilized to improve VO estimates and achieve better results in embodied navigation tasks.

arxiv情報

著者 Sayan Paul,Ruddra dev Roychoudhury,Brojeshwar Bhowmick
発行日 2024-11-07 15:36:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.RO パーマリンク