要約
深層強化学習 (DRL) では数多くの成功が収められていますが、学習されたポリシーは解釈できません。
さらに、DRL は記号関係表現を活用していないため、環境の構造変化 (オブジェクト数の増加など) に対処することが困難です。
一方、関係強化学習は、記号計画から関係表現を継承して、再利用可能なポリシーを学習します。
しかし、これまでのところ、ディープ ニューラル ネットワークをスケールアップして活用することはできていません。
私たちは、ニューラル世界とシンボリック世界の両方の長所を活用するフレームワークである Deep Explainable Relational Reinforcement Learning (DERRL) を提案します。
DERRL は、神経記号的アプローチに頼ることにより、記号計画からの関係表現と制約を深層学習と組み合わせて、解釈可能なポリシーを抽出します。
これらのポリシーは、各決定 (またはアクション) がどのようにして得られるかを説明する論理ルールの形式になっています。
カウントダウン ゲーム、ブロック ワールド、グリッドワールド、トラフィックなどのセットアップでのいくつかの実験を通じて、DERRL によって学習されたポリシーがさまざまな構成やコンテキストに適用できるため、環境の変更に一般化できることを示しました。
要約(オリジナル)
Despite numerous successes in Deep Reinforcement Learning (DRL), the learned policies are not interpretable. Moreover, since DRL does not exploit symbolic relational representations, it has difficulties in coping with structural changes in its environment (such as increasing the number of objects). Relational Reinforcement Learning, on the other hand, inherits the relational representations from symbolic planning to learn reusable policies. However, it has so far been unable to scale up and exploit the power of deep neural networks. We propose Deep Explainable Relational Reinforcement Learning (DERRL), a framework that exploits the best of both — neural and symbolic worlds. By resorting to a neuro-symbolic approach, DERRL combines relational representations and constraints from symbolic planning with deep learning to extract interpretable policies. These policies are in the form of logical rules that explain how each decision (or action) is arrived at. Through several experiments, in setups like the Countdown Game, Blocks World, Gridworld, and Traffic, we show that the policies learned by DERRL can be applied to different configurations and contexts, hence generalizing to environmental modifications.
arxiv情報
著者 | Rishi Hazra,Luc De Raedt |
発行日 | 2023-07-14 07:01:31+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google