Improving Collision-Free Success Rate For Object Goal Visual Navigation Via Two-Stage Training With Collision Prediction

要約

オブジェクト目標の視覚ナビゲーションは、エゴセントリックな視覚観測を使用して特定のターゲットオブジェクトにナビゲートするタスクです。
深い強化学習に基づく最近のエンドツーエンドのナビゲーションモデルは、ターゲットオブジェクトを見つけて到達する際に顕著なパフォーマンスを達成しています。
ただし、ナビゲーション中のこれらのモデルの衝突問題は、成功を評価するときに衝突が通常無視されるため、解決されていないままです。
トレーニング中の衝突に対する否定的な報酬を組み込むことは簡単に見えますが、より保守的なポリシーをもたらし、それによりエージェントのターゲットに到達する能力が制限されます。
さらに、これらのモデルの多くはRGB観測のみを利用しており、深さ情報なしで衝突回避の難しさをさらに高めます。
これらの制限に対処するために、新しい概念 – 衝突のない成功が導入され、ナビゲーションモデルがターゲットオブジェクトに向かって衝突のないパスを見つける能力を評価します。
RGB観測を使用して、既存のナビゲーションモデルの衝突のない成功率を改善するために、衝突予測を備えた2段階のトレーニング方法が提案されています。
最初のトレーニング段階では、衝突予測モジュールが探査中にエージェントの衝突状態を監督し、衝突の可能性を予測することを学びます。
第2段階では、訓練された衝突予測を活用して、エージェントは衝突せずにターゲットに移動することを学びます。
AI2-THOR環境での実験結果は、提案された方法が異なるナビゲーションモデルの衝突のない成功率を大幅に改善し、他の同等の衝突回避方法を上回ることを示しています。

要約(オリジナル)

The object goal visual navigation is the task of navigating to a specific target object using egocentric visual observations. Recent end-to-end navigation models based on deep reinforcement learning have achieved remarkable performance in finding and reaching target objects. However, the collision problem of these models during navigation remains unresolved, since the collision is typically neglected when evaluating the success. Although incorporating a negative reward for collision during training appears straightforward, it results in a more conservative policy, thereby limiting the agent’s ability to reach targets. In addition, many of these models utilize only RGB observations, further increasing the difficulty of collision avoidance without depth information. To address these limitations, a new concept — collision-free success is introduced to evaluate the ability of navigation models to find a collision-free path towards the target object. A two-stage training method with collision prediction is proposed to improve the collision-free success rate of the existing navigation models using RGB observations. In the first training stage, the collision prediction module supervises the agent’s collision states during exploration to learn to predict the possible collision. In the second stage, leveraging the trained collision prediction, the agent learns to navigate to the target without collision. The experimental results in the AI2-THOR environment demonstrate that the proposed method greatly improves the collision-free success rate of different navigation models and outperforms other comparable collision-avoidance methods.

arxiv情報

著者 Shiwei Lian,Feitian Zhang
発行日 2025-02-19 07:33:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク