See What the Robot Can’t See: Learning Cooperative Perception for Visual Navigation


私たちは、グラフ ニューラル ネットワーク (GNN) アーキテクチャを使用して近傍ベースの特徴集約モジュールを実装することで、すべてのセンサー (ターゲットを直接見ることができないセンサーも含む) がターゲットまでの最短経路に沿った方向を予測できるようにするという課題を克服しました。
私たちの結果は、センサーとロボット間の通信を使用することにより、通信なしのベースラインと比較して、SPL (経路長によって重み付けされた成功) で最大 2.0 倍の改善を達成できることを示しています。
これは、世界地図、位置データ、センサー ネットワークの事前調整を必要とせずに実行されます。
最後に、ロボットのナビゲーションに応じてセンサー ネットワークのレイアウトと障害物の両方が動的に再構成されながら、ターゲットまでのナビゲーションに成功した例を紹介します。


We consider the problem of navigating a mobile robot towards a target in an unknown environment that is endowed with visual sensors, where neither the robot nor the sensors have access to global positioning information and only use first-person-view images. In order to overcome the need for positioning, we train the sensors to encode and communicate relevant viewpoint information to the mobile robot, whose objective it is to use this information to navigate to the target along the shortest path. We overcome the challenge of enabling all the sensors (even those that cannot directly see the target) to predict the direction along the shortest path to the target by implementing a neighborhood-based feature aggregation module using a Graph Neural Network (GNN) architecture. In our experiments, we first demonstrate generalizability to previously unseen environments with various sensor layouts. Our results show that by using communication between the sensors and the robot, we achieve up to 2.0x improvement in SPL (Success weighted by Path Length) when compared to a communication-free baseline. This is done without requiring a global map, positioning data, nor pre-calibration of the sensor network. Second, we perform a zero-shot transfer of our model from simulation to the real world. Laboratory experiments demonstrate the feasibility of our approach in various cluttered environments. Finally, we showcase examples of successful navigation to the target while both the sensor network layout as well as obstacles are dynamically reconfigured as the robot navigates. We provide a video demo, the dataset, trained models, and source code.


著者 Jan Blumenkamp,Qingbiao Li,Binyu Wang,Zhe Liu,Amanda Prorok
発行日 2023-07-31 16:40:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.LG, cs.MA, cs.RO, cs.SY, eess.SY パーマリンク