要約
この作業の目的は、無人の航空システム(UAS)が大規模な都市環境でナビゲートし、獲得した専門知識を新しい環境に移すことを効率的に学ぶことを可能にするアプローチを開発することです。
これを達成するために、メタカリキュラムトレーニングスキームを提案します。
まず、メタトレーニングにより、エージェントはマスターポリシーを学習してタスクを介して一般化できます。
結果のモデルは、ダウンストリームタスクで微調整されます。
トレーニングカリキュラムを階層的な方法で整理し、エージェントがターゲットタスクに向かって粗から罰金に導かれるようにします。
さらに、漸進的な学習とメタの強化学習(MRL)のアイデアを組み合わせたアルゴリズムである増分自己適応補強学習(ISAR)を紹介します。
特定のタスクのポリシーの取得に焦点を当てた従来の強化学習(RL)とは対照的に、MRLは、新しいタスクへの迅速な転送能力を備えたポリシーを学ぶことを目指しています。
ただし、MRLトレーニングプロセスは時間がかかりますが、提案されているISARアルゴリズムは、従来のMRLアルゴリズムよりも速い収束を実現します。
シミュレートされた環境で提案された方法論を評価し、このトレーニング哲学をISARアルゴリズムと組み合わせて使用すると、大規模都市のナビゲーションの収束速度と新しい環境での適応能力が大幅に向上することを実証します。
要約(オリジナル)
The aim of this work is to develop an approach that enables Unmanned Aerial System (UAS) to efficiently learn to navigate in large-scale urban environments and transfer their acquired expertise to novel environments. To achieve this, we propose a meta-curriculum training scheme. First, meta-training allows the agent to learn a master policy to generalize across tasks. The resulting model is then fine-tuned on the downstream tasks. We organize the training curriculum in a hierarchical manner such that the agent is guided from coarse to fine towards the target task. In addition, we introduce Incremental Self-Adaptive Reinforcement learning (ISAR), an algorithm that combines the ideas of incremental learning and meta-reinforcement learning (MRL). In contrast to traditional reinforcement learning (RL), which focuses on acquiring a policy for a specific task, MRL aims to learn a policy with fast transfer ability to novel tasks. However, the MRL training process is time consuming, whereas our proposed ISAR algorithm achieves faster convergence than the conventional MRL algorithm. We evaluate the proposed methodologies in simulated environments and demonstrate that using this training philosophy in conjunction with the ISAR algorithm significantly improves the convergence speed for navigation in large-scale cities and the adaptation proficiency in novel environments.
arxiv情報
著者 | Yuci Han,Charles Toth,Alper Yilmaz |
発行日 | 2025-03-20 01:44:59+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google