Meta-learning how to Share Credit among Macro-Actions

要約

強化学習の探査を改善するための提案されているメカニズムの1つは、マクロアクションの使用によるものです。
しかし、逆説的に、多くのシナリオでは、マクロアクションの素朴な追加は、より良い探索につながるのではなく、逆になります。
これは、有用でないマクロを追加することによって引き起こされ、複数の作品が効果的に環境固有の有用なマクロを発見するメカニズムに焦点を合わせていると主張されています。
この作業では、わずかに異なる視点を取ります。
困難は、エピソードあたりの平均決定数を減らすことと、アクション空間のサイズを増やすことの間のトレードオフに起因すると主張します。
つまり、通常、各潜在的なマクロアクションを独立した原子として扱うため、検索空間を厳密に増加させ、典型的な探査戦略を非効率的にします。
この問題に対処するために、アクション空間の効果的な次元を減らして探索を改善することにより、アクションとマクロアクションの関係を悪用してクレジット割り当てメカニズムを改善する新しい正規化用語を提案します。
この用語は、目的のポリシーの学習と共同でメタを授与される類似性マトリックスに依存しています。
Atari GamesとStreetFighter II環境のマクロアクションを検討する戦略を経験的に検証します。
私たちの結果は、すべての環境での虹-DQNベースラインよりも大幅な改善を示しています。
さらに、マクロアクションの類似性が関連環境に転送可能であることを示します。
この作業は、アクション空間で類似性が課せられたジオメトリを悪用してクレジットの割り当てと探索を改善する方法を理解するための小さなが重要なステップであるため、学習をより効果的にすると考えています。

要約(オリジナル)

One proposed mechanism to improve exploration in reinforcement learning is through the use of macro-actions. Paradoxically though, in many scenarios the naive addition of macro-actions does not lead to better exploration, but rather the opposite. It has been argued that this was caused by adding non-useful macros and multiple works have focused on mechanisms to discover effectively environment-specific useful macros. In this work, we take a slightly different perspective. We argue that the difficulty stems from the trade-offs between reducing the average number of decisions per episode versus increasing the size of the action space. Namely, one typically treats each potential macro-action as independent and atomic, hence strictly increasing the search space and making typical exploration strategies inefficient. To address this problem we propose a novel regularization term that exploits the relationship between actions and macro-actions to improve the credit assignment mechanism by reducing the effective dimension of the action space and, therefore, improving exploration. The term relies on a similarity matrix that is meta-learned jointly with learning the desired policy. We empirically validate our strategy looking at macro-actions in Atari games, and the StreetFighter II environment. Our results show significant improvements over the Rainbow-DQN baseline in all environments. Additionally, we show that the macro-action similarity is transferable to related environments. We believe this work is a small but important step towards understanding how the similarity-imposed geometry on the action space can be exploited to improve credit assignment and exploration, therefore making learning more effective.

arxiv情報

著者 Ionel-Alexandru Hosu,Traian Rebedea,Razvan Pascanu
発行日 2025-06-16 16:52:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク