要約
この論文は、未知の環境におけるマップレスナビゲーションスキルの習得に焦点を当てています。
適応型スキルアンサンブルメカニズムを特徴とする新しい強化学習手法であるスキル Q ネットワーク (SQN) を紹介します。
既存の方法とは異なり、私たちのモデルは、事前知識を必要とせずに、複数の低レベルのナビゲーション スキルと並行して高レベルのスキル決定プロセスを同時に学習します。
マップレス ナビゲーション向けに調整された報酬関数を活用することで、SQN は探索と目標指向のスキルの両方を組み込んだ適応的な操作を学習することができ、新しい環境での効果的なナビゲーションを可能にします。
私たちの実験では、SQN が複雑な環境を効果的にナビゲートでき、ベースライン モデルと比較して 40% 高いパフォーマンスを示していることが実証されました。
SQN は、明示的なガイダンスなしで、低レベルのスキル ポリシーを組み合わせる方法を発見し、目的地に到達するための目標指向のナビゲーションと、困難なシナリオでローカル ミニマム領域から脱出するための探索操作の両方を紹介します。
注目すべきことに、当社の適応スキル アンサンブル手法は、非凸状の障害物や凹凸のある地下のような環境からの目に見えない観測を特徴とする、分布外ドメインへのゼロショット転送を可能にします。
要約(オリジナル)
This paper focuses on the acquisition of mapless navigation skills within unknown environments. We introduce the Skill Q-Network (SQN), a novel reinforcement learning method featuring an adaptive skill ensemble mechanism. Unlike existing methods, our model concurrently learns a high-level skill decision process alongside multiple low-level navigation skills, all without the need for prior knowledge. Leveraging a tailored reward function for mapless navigation, the SQN is capable of learning adaptive maneuvers that incorporate both exploration and goal-directed skills, enabling effective navigation in new environments. Our experiments demonstrate that our SQN can effectively navigate complex environments, exhibiting a 40% higher performance compared to baseline models. Without explicit guidance, SQN discovers how to combine low-level skill policies, showcasing both goal-directed navigations to reach destinations and exploration maneuvers to escape from local minimum regions in challenging scenarios. Remarkably, our adaptive skill ensemble method enables zero-shot transfer to out-of-distribution domains, characterized by unseen observations from non-convex obstacles or uneven, subterranean-like environments.
arxiv情報
著者 | Hyunki Seong,David Hyunchul Shim |
発行日 | 2024-03-25 11:57:30+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google