要約
深層強化学習 (DRL) は、マルチ UAV システムのオンライン経路計画タスクにおいて目覚ましい進歩を遂げました。
ただし、既存の DRL ベースの手法では、視覚的表現の非因果的要因がポリシー学習に悪影響を与えるため、目に見えないシナリオに取り組むときにパフォーマンスの低下が発生することがよくあります。
この問題に対処するために、我々は、表現内の因果的要因と非因果的要因を識別できる、新しい表現学習アプローチ、つまり因果的表現のもつれの解消を提案します。
その後、後続のポリシー学習には因果要因のみを渡すため、非因果要因の影響が明示的に排除され、DRL モデルの汎化能力が効果的に向上します。
実験結果は、私たちが提案した方法が、特に目に見えないシナリオにおいて堅牢なナビゲーションパフォーマンスと効果的な衝突回避を達成できることを示しており、既存のSOTAアルゴリズムを大幅に上回ります。
要約(オリジナル)
Deep reinforcement learning (DRL) has achieved remarkable progress in online path planning tasks for multi-UAV systems. However, existing DRL-based methods often suffer from performance degradation when tackling unseen scenarios, since the non-causal factors in visual representations adversely affect policy learning. To address this issue, we propose a novel representation learning approach, \ie, causal representation disentanglement, which can identify the causal and non-causal factors in representations. After that, we only pass causal factors for subsequent policy learning and thus explicitly eliminate the influence of non-causal factors, which effectively improves the generalization ability of DRL models. Experimental results show that our proposed method can achieve robust navigation performance and effective collision avoidance especially in unseen scenarios, which significantly outperforms existing SOTA algorithms.
arxiv情報
著者 | Jiafan Zhuang,Zihao Xia,Gaofei Han,Boxi Wang,Wenji Li,Dongliang Wang,Zhifeng Hao,Ruichu Cai,Zhun Fan |
発行日 | 2024-07-15 09:35:03+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google