要約
人間は、象徴的な推論と直感的な反応の両方を活用できます。
対照的に、強化学習ポリシーは通常、ニューラル ネットワークのような不透明なシステム、または事前定義されたシンボルとルールに依存する記号システムのいずれかでエンコードされます。
このばらばらのアプローチは、ニューラル エージェントの特徴である柔軟な低レベルの反応や、記号エージェントの解釈可能な推論のいずれかを欠いていることが多いため、エージェントの能力を大幅に制限します。
この課題を克服するために、ロジックとニューラル ポリシーの両方を組み合わせて使用する RL エージェント内で両方のパラダイムを調和して統合するニューロシンボリック RL フレームワークである BlendRL を導入します。
私たちは、BlendRL エージェントが標準の Atari 環境でニューラル ベースラインとシンボリック ベースラインの両方を上回るパフォーマンスを示すことを経験的に実証し、環境変化に対する堅牢性を示します。
さらに、ニューラル ポリシーとシンボリック ポリシーの間の相互作用を分析し、それらのハイブリッド使用がエージェントが互いの制限を克服するのにどのように役立つかを示します。
要約(オリジナル)
Humans can leverage both symbolic reasoning and intuitive reactions. In contrast, reinforcement learning policies are typically encoded in either opaque systems like neural networks or symbolic systems that rely on predefined symbols and rules. This disjointed approach severely limits the agents’ capabilities, as they often lack either the flexible low-level reaction characteristic of neural agents or the interpretable reasoning of symbolic agents. To overcome this challenge, we introduce BlendRL, a neuro-symbolic RL framework that harmoniously integrates both paradigms within RL agents that use mixtures of both logic and neural policies. We empirically demonstrate that BlendRL agents outperform both neural and symbolic baselines in standard Atari environments, and showcase their robustness to environmental changes. Additionally, we analyze the interaction between neural and symbolic policies, illustrating how their hybrid use helps agents overcome each other’s limitations.
arxiv情報
著者 | Hikaru Shindo,Quentin Delfosse,Devendra Singh Dhami,Kristian Kersting |
発行日 | 2024-10-15 15:24:20+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google