Induced Modularity and Community Detection for Functionally Interpretable Reinforcement Learning

要約

強化学習の解釈可能性は、AIシステムが人間の価値と一致し、安全性、堅牢性、公平性などの多様な関連要件を満たすために重要です。
ニューラルネットワークのスパース性と地域を奨励するための最近のアプローチに基づいて、非ローカルウェイトの罰則が、強化学習エージェントのポリシーネットワークで機能的に独立したモジュールの出現にどのようにつながるかを示します。
これを説明するために、確率的なミニグルド環境におけるx軸とy軸に沿った動きの評価のための2つの並列モジュールの出現を示します。
コミュニティ検出アルゴリズムの新しいアプリケーションを通じて、これらのモジュールを自動的に識別する方法を示し、推論前にネットワークの重みに関する直接的な介入を通じてそれらの機能的役割が検証されます。
これは、機能的モジュール性を通じて補強学習解釈可能性のためのスケーラブルなフレームワークを確立し、完全性と強化学習の説明の認知的扱い性のトレードオフに関する課題に対処します。

要約(オリジナル)

Interpretability in reinforcement learning is crucial for ensuring AI systems align with human values and fulfill the diverse related requirements including safety, robustness and fairness. Building on recent approaches to encouraging sparsity and locality in neural networks, we demonstrate how the penalisation of non-local weights leads to the emergence of functionally independent modules in the policy network of a reinforcement learning agent. To illustrate this, we demonstrate the emergence of two parallel modules for assessment of movement along the X and Y axes in a stochastic Minigrid environment. Through the novel application of community detection algorithms, we show how these modules can be automatically identified and their functional roles verified through direct intervention on the network weights prior to inference. This establishes a scalable framework for reinforcement learning interpretability through functional modularity, addressing challenges regarding the trade-off between completeness and cognitive tractability of reinforcement learning explanations.

arxiv情報

著者 Anna Soligo,Pietro Ferraro,David Boyle
発行日 2025-01-28 17:02:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク