Online inductive learning from answer sets for efficient reinforcement learning exploration

要約

この論文では、トレーニングのパフォーマンスと説明可能性を向上させるために、帰納的論理プログラミングと強化学習を組み合わせた新しいアプローチを紹介します。
私たちは、ノイズの多い例からの回答セット プログラムの帰納的学習を利用して、エクスペリエンスの各バッチにおけるエージェント ポリシーの説明可能な近似を表す一連の論理ルールを学習します。
次に、非効率的な報酬形成やソフト バイアスによる最適性の維持を必要とせずに、次のバッチでの学習エージェントの探索をガイドするために、学習したルールに対して回答セット推論を実行します。
手順全体は、強化学習アルゴリズムのオンライン実行中に実行されます。
複雑さが増す 2 つのマップでパックマン シナリオの Q 学習アルゴリズムにアプローチを統合することで、アプローチの有効性を事前に検証します。
私たちの方法論は、トレーニングの最初のバッチであっても、エージェントが達成する割引収益を大幅に向上させます。
さらに、帰納学習は Q 学習に必要な計算時間を犠牲にすることはなく、学習されたルールはエージェント ポリシーの説明にすぐに収束します。

要約(オリジナル)

This paper presents a novel approach combining inductive logic programming with reinforcement learning to improve training performance and explainability. We exploit inductive learning of answer set programs from noisy examples to learn a set of logical rules representing an explainable approximation of the agent policy at each batch of experience. We then perform answer set reasoning on the learned rules to guide the exploration of the learning agent at the next batch, without requiring inefficient reward shaping and preserving optimality with soft bias. The entire procedure is conducted during the online execution of the reinforcement learning algorithm. We preliminarily validate the efficacy of our approach by integrating it into the Q-learning algorithm for the Pac-Man scenario in two maps of increasing complexity. Our methodology produces a significant boost in the discounted return achieved by the agent, even in the first batches of training. Moreover, inductive learning does not compromise the computational time required by Q-learning and learned rules quickly converge to an explanation of the agent policy.

arxiv情報

著者 Celeste Veronese,Daniele Meli,Alessandro Farinelli
発行日 2025-01-13 16:13:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI パーマリンク