Learning Interpretable Policies in Hindsight-Observable POMDPs through Partially Supervised Reinforcement Learning

要約

深層強化学習は、ビデオゲーム、ロボット制御、自動運転、創薬などのさまざまな分野で目覚ましい成果を上げています。
部分的に観察可能な領域における一般的な方法論は、真の状態について明示的に推論することなく、主に画像などの高次元の観察からのエンドツーエンドの学習に依存しています。
私たちは、部分教師あり強化学習 (PSRL) フレームワークを導入するという別の方向性を提案します。
PSRL の中心となるのは、教師あり学習と教師なし学習の両方の融合です。
このアプローチでは、状態推定器を利用して、多くの場合トレーニング時に完全に観察可能な高次元の観察から教師付き意味論的状態情報を抽出します。
これにより、制御を伴う状態予測を構成する、より解釈しやすいポリシーが得られます。
並行して、教師なしの潜在表現をキャプチャします。
これら 2 つ (意味論的状態と潜在状態) は融合され、ポリシー ネットワークへの入力として利用されます。
この並置により、教師付き状態情報の強調から、より豊富な潜在的な洞察の統合まで、柔軟で動的な範囲が実践者に提供されます。
広範な実験結果は、これらの二重表現を結合することによって、PSRL が強力なバランスを提供し、報酬と収束速度の点で従来の方法によって設定されたパフォーマンス ベンチマークを維持し、多くの場合それを大幅に上回るパフォーマンス ベンチマークを維持しながらモデルの解釈可能性を向上させることを示しています。

要約(オリジナル)

Deep reinforcement learning has demonstrated remarkable achievements across diverse domains such as video games, robotic control, autonomous driving, and drug discovery. Common methodologies in partially-observable domains largely lean on end-to-end learning from high-dimensional observations, such as images, without explicitly reasoning about true state. We suggest an alternative direction, introducing the Partially Supervised Reinforcement Learning (PSRL) framework. At the heart of PSRL is the fusion of both supervised and unsupervised learning. The approach leverages a state estimator to distill supervised semantic state information from high-dimensional observations which are often fully observable at training time. This yields more interpretable policies that compose state predictions with control. In parallel, it captures an unsupervised latent representation. These two-the semantic state and the latent state-are then fused and utilized as inputs to a policy network. This juxtaposition offers practitioners a flexible and dynamic spectrum: from emphasizing supervised state information to integrating richer, latent insights. Extensive experimental results indicate that by merging these dual representations, PSRL offers a potent balance, enhancing model interpretability while preserving, and often significantly outperforming, the performance benchmarks set by traditional methods in terms of reward and convergence speed.

arxiv情報

著者 Michael Lanier,Ying Xu,Nathan Jacobs,Chongjie Zhang,Yevgeniy Vorobeychik
発行日 2024-02-14 16:23:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク