要約
特定の状況では、ニューラル ネットワークは隠れた活性化で環境の状態を表します。
私たちの目標は、ネットワークがどのような環境状態を表しているかを視覚化することです。
最後にデコーダ ネットワークを備えたリカレント ニューラル ネットワーク (RNN) アーキテクチャを実験します。
トレーニング後、ネットワークの中間表現にデコーダーを適用して、それが何を表現しているかを視覚化します。
私たちは定量的解釈可能性の指標を定義し、それを使用して隠れた状態が単純なタスクで高度に解釈可能であることを実証します。
また、オートエンコーダと敵対的手法も開発し、それが解釈可能性に利益をもたらすことを示します。
要約(オリジナル)
In certain situations, neural networks will represent environment states in their hidden activations. Our goal is to visualize what environment states the networks are representing. We experiment with a recurrent neural network (RNN) architecture with a decoder network at the end. After training, we apply the decoder to the intermediate representations of the network to visualize what they represent. We define a quantitative interpretability metric and use it to demonstrate that hidden states can be highly interpretable on a simple task. We also develop autoencoder and adversarial techniques and show that benefit interpretability.
arxiv情報
著者 | Nevan Wichers,Victor Tao,Riccardo Volpato,Fazl Barez |
発行日 | 2024-05-10 11:43:35+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google