Feudal Graph Reinforcement Learning

要約

グラフベースの表現とメッセージパッシングモジュールポリシーは、強化学習 (RL) における構成可能な制御問題に取り組むための優れたアプローチを構成します。
ただし、最近のグラフディープラーニングの文献で示されているように、このようなローカルのメッセージパッシングオペレーターは情報のボトルネックを生み出し、グローバルな調整を妨げる可能性があります。
この問題は、高度な計画が必要なタスクではさらに深刻になります。
この研究では、階層型 RL とピラミッド型メッセージ パッシング アーキテクチャに依存することで、このような課題に対処する封建グラフ強化学習 (FGRL) と呼ばれる新しい方法論を提案します。
特に、FGRL は、高レベルのコマンドが階層化されたグラフ構造を通じて階層の最上位から下に伝播されるポリシーの階層を定義します。
最下位層は物理システムの形態を模倣し、上位層は高次のサブモジュールに対応します。
結果として得られるエージェントは、特定のレベルのアクションがその下のレベルの目標を設定するポリシーの委員会によって特徴付けられ、タスクの分解を自然に実装できる階層的な意思決定構造を実装します。
グラフクラスタリング問題とMuJoCo移動タスクに関して提案されたフレームワークを評価します。
シミュレーション結果は、FGRL が関連するベースラインと比較して有利であることを示しています。
さらに、コマンド伝播メカニズムの詳細な分析により、導入されたメッセージ パッシング スキームが階層的な意思決定ポリシーの学習に有利であるという証拠が得られます。

要約(オリジナル)

Graph-based representations and message-passing modular policies constitute prominent approaches to tackling composable control problems in reinforcement learning (RL). However, as shown by recent graph deep learning literature, such local message-passing operators can create information bottlenecks and hinder global coordination. The issue becomes more serious in tasks requiring high-level planning. In this work, we propose a novel methodology, named Feudal Graph Reinforcement Learning (FGRL), that addresses such challenges by relying on hierarchical RL and a pyramidal message-passing architecture. In particular, FGRL defines a hierarchy of policies where high-level commands are propagated from the top of the hierarchy down through a layered graph structure. The bottom layers mimic the morphology of the physical system, while the upper layers correspond to higher-order sub-modules. The resulting agents are then characterized by a committee of policies where actions at a certain level set goals for the level below, thus implementing a hierarchical decision-making structure that can naturally implement task decomposition. We evaluate the proposed framework on a graph clustering problem and MuJoCo locomotion tasks; simulation results show that FGRL compares favorably against relevant baselines. Furthermore, an in-depth analysis of the command propagation mechanism provides evidence that the introduced message-passing scheme favors learning hierarchical decision-making policies.

arxiv情報

著者 Tommaso Marzi,Arshjot Khehra,Andrea Cini,Cesare Alippi
発行日 2024-10-14 15:56:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク