移動ロボットのナビゲーション性能を評価するための新しい指標である、完了時間 (SCT) によって重み付けされた成功を紹介します。
ナビゲーションに関するいくつかの関連研究では、エージェントが目標位置に到達するまでの経路を評価する主な方法として、経路長によって重み付けされた成功 (SPL) が使用されていますが、SPL では、複雑なダイナミクスを持つエージェントを適切に評価する能力には限界があります。
対照的に、SCT はエージェントのダイナミクス モデルを明示的に考慮し、エージェントがそのダイナミクスによってもたらされる最速のナビゲーション動作にどの程度近似しているかを正確に捕捉することを目的としています。
いくつかの具体化されたナビゲーション作品ではポイントターンダイナミクスが使用されていますが、私たちはエージェントの一輪車ダイナミクスに焦点を当てています。これは、一般的なモバイルロボットプラットフォーム (LoCoBot、TurtleBot、Fetch など) のダイナミクスモデルをより適切に例示しています。
また、障害物を含む環境で開始ポーズからゴール位置までの最速の衝突のない経路と完了時間を推定する一輪車ダイナミクスのアルゴリズムである RRT*-Unicycle も紹介します。
私たちは深層強化学習と報酬形成を実験して、さまざまなダイナミクス モデルを使用してエージェントのナビゲーション パフォーマンスをトレーニングおよび比較します。
これらのエージェントを評価する際に、SPL とは対照的に、SCT は、より単純なダイナミクスのポイントターン モデルよりも一輪車モデルが持つナビゲーション速度の利点を捉えることができることを示します。
We present Success weighted by Completion Time (SCT), a new metric for evaluating navigation performance for mobile robots. Several related works on navigation have used Success weighted by Path Length (SPL) as the primary method of evaluating the path an agent makes to a goal location, but SPL is limited in its ability to properly evaluate agents with complex dynamics. In contrast, SCT explicitly takes the agent’s dynamics model into consideration, and aims to accurately capture how well the agent has approximated the fastest navigation behavior afforded by its dynamics. While several embodied navigation works use point-turn dynamics, we focus on unicycle-cart dynamics for our agent, which better exemplifies the dynamics model of popular mobile robotics platforms (e.g., LoCoBot, TurtleBot, Fetch, etc.). We also present RRT*-Unicycle, an algorithm for unicycle dynamics that estimates the fastest collision-free path and completion time from a starting pose to a goal location in an environment containing obstacles. We experiment with deep reinforcement learning and reward shaping to train and compare the navigation performance of agents with different dynamics models. In evaluating these agents, we show that in contrast to SPL, SCT is able to capture the advantages in navigation speed a unicycle model has over a simpler point-turn model of dynamics. Lastly, we show that we can successfully deploy our trained models and algorithms outside of simulation in the real world. We embody our agents in an real robot to navigate an apartment, and show that they can generalize in a zero-shot manner.
著者 | Naoki Yokoyama,Sehoon Ha,Dhruv Batra |
発行日 | 2023-10-12 19:21:20+00:00 |
