Creativity of AI: Hierarchical Planning Model Learning for Facilitating Deep Reinforcement Learning

要約

実世界のアプリケーションで大きな成功を収めているにもかかわらず、深層強化学習 (DRL) は依然として 3 つの重大な問題、つまりデータ効率、解釈可能性および転送可能性の欠如に悩まされています。
最近の研究では、象徴的な知識を DRL に埋め込むことが、これらの課題に対処する上で有望であることが示されています。
これに触発されて、シンボリック オプションを備えた新しい深層強化学習フレームワークを紹介します。
私たちのフレームワークはループトレーニング手順を特徴としており、計画モデル(アクションモデルや階層型タスクネットワークモデルを含む)とインタラクティブな軌跡から自動的に学習したシンボリックオプションを使用して計画を立て、政策の改善を導くことができます。
学習されたシンボリック オプションは、専門分野の知識に対する密な要件を軽減し、ポリシーの固有の解釈可能性を提供します。
さらに、シンボリック計画モデルを使用して計画を立てることにより、転送性とデータ効率をさらに向上させることができます。
フレームワークの有効性を検証するために、Montezuma’sリベンジ と Office World の 2 つのドメインでそれぞれ実験を実施します。
結果は、同等のパフォーマンス、データ効率、解釈可能性、転送可能性の向上を示しています。

要約(オリジナル)

Despite of achieving great success in real-world applications, Deep Reinforcement Learning (DRL) is still suffering from three critical issues, i.e., data efficiency, lack of the interpretability and transferability. Recent research shows that embedding symbolic knowledge into DRL is promising in addressing those challenges. Inspired by this, we introduce a novel deep reinforcement learning framework with symbolic options. Our framework features a loop training procedure, which enables guiding the improvement of policy by planning with planning models (including action models and hierarchical task network models) and symbolic options learned from interactive trajectories automatically. The learned symbolic options alleviate the dense requirement of expert domain knowledge and provide inherent interpretability of policies. Moreover, the transferability and data efficiency can be further improved by planning with the symbolic planning models. To validate the effectiveness of our framework, we conduct experiments on two domains, Montezuma’s Revenge and Office World, respectively. The results demonstrate the comparable performance, improved data efficiency, interpretability and transferability.

arxiv情報

著者 Hankz Hankui Zhuo,Shuting Deng,Mu Jin,Zhihao Ma,Kebing Jin,Chen Chen,Chao Yu
発行日 2023-07-07 17:09:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク