Effective Reinforcement Learning Based on Structural Information Principles

要約

強化学習 (RL) アルゴリズムは環境との相互作用を通じて逐次的な行動パターンを獲得しますが、ノイズの多い高次元のシナリオにおけるその有効性は通常、特定の構造的事前分布に依存します。
この論文では、情報理論の観点からアプローチした、効果的な意思決定のための新規かつ一般的な構造情報原理ベースのフレームワーク、つまり SIDM を提案します。
この論文では、状態空間とアクション空間の特徴の類似性に基づいて頂点コミュニティを形成する、特定の教師なし分割方法を紹介します。
構造エントロピーを頂点の重みとして利用する集約関数は、その埋め込みを取得するために各コミュニティ内で考案され、それによって階層的な状態とアクションの抽象化が容易になります。
歴史的な軌跡から抽象的な要素を抽出することにより、方向性があり、重み付けされた均一な遷移グラフが構築されます。
このグラフの高次元エントロピーを最小化すると、最適なエンコード ツリーが生成されます。
革新的な 2 層のスキルベースの学習メカニズムが導入され、各状態遷移の共通パス エントロピーをその識別された確率として計算することで、専門知識の必要性がなくなりました。
さらに、SIDM はさまざまなシングルエージェントおよびマルチエージェント RL アルゴリズムに柔軟に組み込むことができ、パフォーマンスを向上させることができます。
最後に、困難なベンチマークに関する広範な評価により、SOTA ベースラインと比較して、私たちのフレームワークがポリシーの品質、安定性、効率をそれぞれ最大 32.70%、88.26%、および 64.86% まで大幅かつ一貫して向上させることが実証されました。

要約(オリジナル)

Although Reinforcement Learning (RL) algorithms acquire sequential behavioral patterns through interactions with the environment, their effectiveness in noisy and high-dimensional scenarios typically relies on specific structural priors. In this paper, we propose a novel and general Structural Information principles-based framework for effective Decision-Making, namely SIDM, approached from an information-theoretic perspective. This paper presents a specific unsupervised partitioning method that forms vertex communities in the state and action spaces based on their feature similarities. An aggregation function, which utilizes structural entropy as the vertex weight, is devised within each community to obtain its embedding, thereby facilitating hierarchical state and action abstractions. By extracting abstract elements from historical trajectories, a directed, weighted, homogeneous transition graph is constructed. The minimization of this graph’s high-dimensional entropy leads to the generation of an optimal encoding tree. An innovative two-layer skill-based learning mechanism is introduced to compute the common path entropy of each state transition as its identified probability, thereby obviating the requirement for expert knowledge. Moreover, SIDM can be flexibly incorporated into various single-agent and multi-agent RL algorithms, enhancing their performance. Finally, extensive evaluations on challenging benchmarks demonstrate that, compared with SOTA baselines, our framework significantly and consistently improves the policy’s quality, stability, and efficiency up to 32.70%, 88.26%, and 64.86%, respectively.

arxiv情報

著者 Xianghua Zeng,Hao Peng,Dingli Su,Angsheng Li
発行日 2024-04-15 13:02:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク