Automatic Discovery of Visual Circuits

要約

これまで、人間が解釈可能な計算を深視力モデルに実装するネットワーク サブコンポーネントの発見のほとんどは、単一ユニットと大量の人的労力の詳細な研究を必要としていました。
私たちは、特定の視覚概念の認識の基礎となる視覚モデルの計算グラフのサブグラフを抽出するためのスケーラブルな方法を探索します。
これらのサブグラフを識別するための新しい方法を導入します。それは、いくつかの例を使用して視覚的な概念を指定し、層全体のニューロン活性化の相互依存性、またはそれらの機能的接続を追跡することです。
私たちのアプローチにより、モデルの出力に因果的に影響を与える回路が抽出され、これらの回路を編集することで大規模な事前学習済みモデルを敵対的な攻撃から防御できることがわかりました。

要約(オリジナル)

To date, most discoveries of network subcomponents that implement human-interpretable computations in deep vision models have involved close study of single units and large amounts of human labor. We explore scalable methods for extracting the subgraph of a vision model’s computational graph that underlies recognition of a specific visual concept. We introduce a new method for identifying these subgraphs: specifying a visual concept using a few examples, and then tracing the interdependence of neuron activations across layers, or their functional connectivity. We find that our approach extracts circuits that causally affect model output, and that editing these circuits can defend large pretrained models from adversarial attacks.

arxiv情報

著者 Achyuta Rajaram,Neil Chowdhury,Antonio Torralba,Jacob Andreas,Sarah Schwettmann
発行日 2024-04-22 17:00:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク