要約
強化学習(RL)は様々な領域で大きな成功を収めているが、その採用はニューラルネットワークポリシーのブラックボックス的性質によって制限されることが多く、その解釈は困難である。対照的に、記号的な方針は、コンパクトで解釈可能な方法で意思決定戦略を表現することができる。しかし、オンポリシー手法の中でシンボリックポリシーを直接学習することは、依然として困難である。本論文では、SYMbolic木ベースのオンポリシーRLのための新しい手法であるSYMPOLを紹介する。SYMPOLは、ポリシー勾配法と統合されたツリーベースのモデルを採用し、エージェントが高いレベルの解釈可能性を維持しながら、その行動を学習し適応させることを可能にする。我々は、SYMPOLを一連のベンチマークRLタスクで評価し、性能と解釈可能性の点で他のツリーベースRLアプローチよりも優れていることを実証する。既存の手法とは異なり、SYMPOLは、標準的なオンポリシーRLアルゴリズムの中で、解釈可能な軸合わせされた決定木の勾配ベースのエンドツーエンドの学習を可能にする。したがって、SYMPOLは、決定木に基づく新しいクラスの解釈可能なRLの基礎となることができる。
要約(オリジナル)
Reinforcement learning (RL) has seen significant success across various domains, but its adoption is often limited by the black-box nature of neural network policies, making them difficult to interpret. In contrast, symbolic policies allow representing decision-making strategies in a compact and interpretable way. However, learning symbolic policies directly within on-policy methods remains challenging. In this paper, we introduce SYMPOL, a novel method for SYMbolic tree-based on-POLicy RL. SYMPOL employs a tree-based model integrated with a policy gradient method, enabling the agent to learn and adapt its actions while maintaining a high level of interpretability. We evaluate SYMPOL on a set of benchmark RL tasks, demonstrating its superiority over alternative tree-based RL approaches in terms of performance and interpretability. Unlike existing methods, it enables gradient-based, end-to-end learning of interpretable, axis-aligned decision trees within standard on-policy RL algorithms. Therefore, SYMPOL can become the foundation for a new class of interpretable RL based on decision trees.
arxiv情報
著者 | Sascha Marton,Tim Grams,Florian Vogt,Stefan Lüdtke,Christian Bartelt,Heiner Stuckenschmidt |
発行日 | 2025-02-03 15:19:28+00:00 |
arxivサイト | arxiv_id(pdf) |