EASpace: Enhanced Action Space for Policy Transfer

要約

専門家の政策をマクロな行動として策定することは、構造化された探査と効率的なクレジット割り当てを通じて長期的な問題を軽減することを約束します。
ただし、従来のオプションベースのマルチポリシー転送方法では、マクロ アクションの長さの探索が非効率であり、有用な長期マクロ アクションの活用が不十分であるという問題があります。
この論文では、EASpace (Enhanced Action Space) と呼ばれる新しいアルゴリズムが提案されています。これは、複数の利用可能な次善のエキスパート ポリシーを使用して学習プロセスを加速するために、代替形式でマクロ アクションを定式化します。
具体的には、EASpace は各エキスパート ポリシーを、実行回数が異なる複数のマクロ アクションに定式化します。
すべてのマクロ アクションは、プリミティブ アクション空間に直接統合されます。
マクロ アクションの実行時間に比例する固有の報酬は、有用なマクロ アクションの活用を促進するために導入されます。
データ効率を向上させるために、オプション内 Q 学習と同様の対応する学習ルールが採用されています。
提案された学習ルールの収束を示す理論分析が示されています。
EASpace の効率は、グリッドベースのゲームとマルチエージェント追跡問題によって例証されます。
提案されたアルゴリズムは、その有効性を検証するために物理システムにも実装されます。

要約(オリジナル)

Formulating expert policies as macro actions promises to alleviate the long-horizon issue via structured exploration and efficient credit assignment. However, traditional option-based multi-policy transfer methods suffer from inefficient exploration of macro action’s length and insufficient exploitation of useful long-duration macro actions. In this paper, a novel algorithm named EASpace (Enhanced Action Space) is proposed, which formulates macro actions in an alternative form to accelerate the learning process using multiple available sub-optimal expert policies. Specifically, EASpace formulates each expert policy into multiple macro actions with different execution {times}. All the macro actions are then integrated into the primitive action space directly. An intrinsic reward, which is proportional to the execution time of macro actions, is introduced to encourage the exploitation of useful macro actions. The corresponding learning rule that is similar to Intra-option Q-learning is employed to improve the data efficiency. Theoretical analysis is presented to show the convergence of the proposed learning rule. The efficiency of EASpace is illustrated by a grid-based game and a multi-agent pursuit problem. The proposed algorithm is also implemented in physical systems to validate its effectiveness.

arxiv情報

著者 Zheng Zhang,Qingrui Zhang,Bo Zhu,Xiaohan Wang,Tianjiang Hu
発行日 2023-07-25 03:11:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY パーマリンク