Visual Semantic Navigation with Real Robots


ビジュアル セマンティック ナビゲーション (VSN) は、目に見えない環境でナビゲーションするための視覚的セマンティック情報を学習するロボットの機能です。
これらの VSN モデルは通常、トレーニングが行われる仮想環境で、主に強化学習ベースのアプローチを使用してテストされます。
この研究では、VSN モデルを実際のロボットに統合して、真に身体化されたエージェントを実現する新しいソリューションを提案します。
また、VSN 用の新しい ROS ベースのフレームワークである ROS4VSN もリリースします。これにより、任意の VSN モデルを任意の ROS 互換ロボットに簡単に展開して、実際の設定でテストできます。
2 つの最先端の VSN エージェントを組み込んだ 2 つの異なるロボットを使用した実験では、現実世界とシミュレーション環境でテストした場合、これらの VSN ソリューションのパフォーマンスに顕著な違いがあることが確認されました。
すべての実験を再現するコードは、 にあります。


Visual Semantic Navigation (VSN) is the ability of a robot to learn visual semantic information for navigating in unseen environments. These VSN models are typically tested in those virtual environments where they are trained, mainly using reinforcement learning based approaches. Therefore, we do not yet have an in-depth analysis of how these models would behave in the real world. In this work, we propose a new solution to integrate VSN models into real robots, so that we have true embodied agents. We also release a novel ROS-based framework for VSN, ROS4VSN, so that any VSN-model can be easily deployed in any ROS-compatible robot and tested in a real setting. Our experiments with two different robots, where we have embedded two state-of-the-art VSN agents, confirm that there is a noticeable performance difference of these VSN solutions when tested in real-world and simulation environments. We hope that this research will endeavor to provide a foundation for addressing this consequential issue, with the ultimate aim of advancing the performance and efficiency of embodied agents within authentic real-world scenarios. Code to reproduce all our experiments can be found at


著者 Carlos Gutiérrez-Álvarez,Pablo Ríos-Navarro,Rafael Flor-Rodríguez,Francisco Javier Acevedo-Rodríguez,Roberto J. López-Sastre
発行日 2025-01-09 13:59:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.CV, cs.RO パーマリンク