Interactive Semantic Map Representation for Skill-based Visual Object Navigation

要約

学習方法を使用した視覚オブジェクトのナビゲーションは、モバイル ロボット工学における重要なタスクの 1 つです。
この論文では、身体化されたエージェントと屋内環境との相互作用中に形成されるシーンの意味論的マップの新しい表現を紹介します。
これは、通常 (逆方向) または遅延 (順方向) 画像シーケンスの推論中に、予測される融合損失値の逆伝播によってセグメンテーション モデルの重みを調整するニューラル ネットワーク手法に基づいています。
私たちはこの表現を SkillTron と呼ばれる本格的なナビゲーション アプローチに実装しました。これにより、強化学習と古典的なマップベースの計画手法に基づいたエンドツーエンドのポリシーからロボット スキルを選択できます。
提案されたアプローチにより、ロボット探索の中間目標とオブジェクト ナビゲーションの最終目標の両方を形成することが可能になります。
私たちは、ハビタット環境で提案されたアプローチを使用して集中的な実験を実施しました。その結果、最先端のアプローチと比較して、ナビゲーション品質の指標において大幅な優位性が示されました。
開発されたコードと使用されたカスタム データセットは、github.com/AIRI-Institute/skill-fusion で公開されています。

要約(オリジナル)

Visual object navigation using learning methods is one of the key tasks in mobile robotics. This paper introduces a new representation of a scene semantic map formed during the embodied agent interaction with the indoor environment. It is based on a neural network method that adjusts the weights of the segmentation model with backpropagation of the predicted fusion loss values during inference on a regular (backward) or delayed (forward) image sequence. We have implemented this representation into a full-fledged navigation approach called SkillTron, which can select robot skills from end-to-end policies based on reinforcement learning and classic map-based planning methods. The proposed approach makes it possible to form both intermediate goals for robot exploration and the final goal for object navigation. We conducted intensive experiments with the proposed approach in the Habitat environment, which showed a significant superiority in navigation quality metrics compared to state-of-the-art approaches. The developed code and used custom datasets are publicly available at github.com/AIRI-Institute/skill-fusion.

arxiv情報

著者 Tatiana Zemskova,Aleksei Staroverov,Kirill Muravyev,Dmitry Yudin,Aleksandr Panov
発行日 2023-11-07 16:30:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク