要約
RLシステムが人間の価値と一致するようにするには、解釈可能性が重要です。
ただし、複雑な意思決定ドメインで達成することは困難なままです。
既存の方法は、ニューロンや決定ノードなどの基本モデルユニットのレベルで解釈可能性を頻繁に試みます。これは、大規模なモデルに対してスケーリングが不十分なアプローチです。
ここでは、代わりに、機能的モジュール性のレベルで解釈可能性へのアプローチを提案します。
ネットワークの重みのスパース性と地域を奨励することで、RLポリシーネットワークの機能モジュールの出現につながることがどれほど示されますか。
これらのモジュールを検出するために、ニューラルネットワークアーキテクチャに適用された場合の標準ネットワーク分析手法の制限を克服するために、新しい「相関アライメント」メトリックを使用する拡張ルーバンアルゴリズムを開発します。
これらの方法を2Dおよび3Dミニグルド環境に適用すると、異なる軸の明確なナビゲーションモジュールの一貫した出現が明らかになり、さらに、推論前にネットワーク重みの直接的な介入を通じてこれらの機能を検証する方法をさらに示します。
要約(オリジナル)
Interpretability is crucial for ensuring RL systems align with human values. However, it remains challenging to achieve in complex decision making domains. Existing methods frequently attempt interpretability at the level of fundamental model units, such as neurons or decision nodes: an approach which scales poorly to large models. Here, we instead propose an approach to interpretability at the level of functional modularity. We show how encouraging sparsity and locality in network weights leads to the emergence of functional modules in RL policy networks. To detect these modules, we develop an extended Louvain algorithm which uses a novel `correlation alignment’ metric to overcome the limitations of standard network analysis techniques when applied to neural network architectures. Applying these methods to 2D and 3D MiniGrid environments reveals the consistent emergence of distinct navigational modules for different axes, and we further demonstrate how these functions can be validated through direct interventions on network weights prior to inference.
arxiv情報
著者 | Anna Soligo,Pietro Ferraro,David Boyle |
発行日 | 2025-06-02 10:38:54+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google