要約
タイトル:構造情報の原理に基づく階層状態抽象化
要約:
– 状態抽象化は、豊富な観測データを持つ強化学習において、無関係な環境情報を無視して意思決定を最適化する。
– しかし、最近のアプローチは、適切な表現能力に焦点を当て過ぎており、本質的な情報の喪失につながり、難しいタスクにおけるパフォーマンスに影響を与える。
– 本論文では、情報理論的な観点から、新しい数学的な構造情報の原理に基づく状態抽象化フレームワーク、すなわちSISAを提案する。
– 具体的には、手動支援を必要としない非教示的で適応型の階層的状態クラスタリング方法が提示され、同時に最適な符号化木が生成される。
– 各非ルート木ノードでは、階層的状態抽象化とサンプリングによる本質的な情報の損失を補償するために、新しい集約関数と条件的な構造エントロピーが設計される。
– 視覚的なグリッドワールド領域および6つの連続制御ベンチマークでの経験的評価は、SOTAの状態抽象化アプローチと比較して、SISAが平均エピソード報酬とサンプル効率をそれぞれ18.98%と44.44%改善することを示す。
– さらに、SISAは異なる表現学習目標に柔軟に統合でき、彼らのパフォーマンスをさらに改善することが実験的に示されている。
要約(オリジナル)
State abstraction optimizes decision-making by ignoring irrelevant environmental information in reinforcement learning with rich observations. Nevertheless, recent approaches focus on adequate representational capacities resulting in essential information loss, affecting their performances on challenging tasks. In this article, we propose a novel mathematical Structural Information principles-based State Abstraction framework, namely SISA, from the information-theoretic perspective. Specifically, an unsupervised, adaptive hierarchical state clustering method without requiring manual assistance is presented, and meanwhile, an optimal encoding tree is generated. On each non-root tree node, a new aggregation function and condition structural entropy are designed to achieve hierarchical state abstraction and compensate for sampling-induced essential information loss in state abstraction. Empirical evaluations on a visual gridworld domain and six continuous control benchmarks demonstrate that, compared with five SOTA state abstraction approaches, SISA significantly improves mean episode reward and sample efficiency up to 18.98 and 44.44%, respectively. Besides, we experimentally show that SISA is a general framework that can be flexibly integrated with different representation-learning objectives to improve their performances further.
arxiv情報
著者 | Xianghua Zeng,Hao Peng,Angsheng Li,Chunyang Liu,Lifang He,Philip S. Yu |
発行日 | 2023-04-24 11:06:52+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI