Deciphering ‘What’ and ‘Where’ Visual Pathways from Spectral Clustering of Layer-Distributed Neural Representations

要約

我々は、ニューラルネットワークの活性化内に含まれるグループ化情報を分析し、事前に訓練された大規模な視覚モデルの動作から空間レイアウトとセマンティックセグメンテーションを抽出できるようにするアプローチを提案します。
以前の研究とは異なり、私たちの方法はネットワークの活性化状態の全体的な分析を実行し、すべての層の機能を活用し、モデルのどの部分に関連情報が含まれているかを推測する必要を回避します。
古典的なスペクトル クラスタリングを動機として、この分析を、異なるレイヤー内の特徴を比較することによって形成される一連の親和性行列を含む最適化目標の観点から定式化します。
勾配降下法を使用してこの最適化問題を解決することで、私たちの技術を単一の画像からデータセット レベルの分析 (後者では画像内および画像間の両方の関係を含む) まで拡張できるようになります。
事前トレーニングされた生成トランスフォーマーを分析すると、そのようなモデルによって学習された計算戦略についての洞察が得られます。
アテンション レイヤー全体にわたるキー クエリの類似性と親和性を同等にすると、シーンの空間レイアウトをエンコードする固有ベクトルが得られますが、値ベクトルの類似性によって親和性を定義すると、オブジェクトの同一性をエンコードする固有ベクトルが得られます。
この結果は、キー ベクトルとクエリ ベクトルが空間的近接性 (「どこ」経路) に従って注意を払う情報の流れを調整し、値ベクトルが意味論的なカテゴリ表現 (「何を」経路) を洗練することを示唆しています。

要約(オリジナル)

We present an approach for analyzing grouping information contained within a neural network’s activations, permitting extraction of spatial layout and semantic segmentation from the behavior of large pre-trained vision models. Unlike prior work, our method conducts a holistic analysis of a network’s activation state, leveraging features from all layers and obviating the need to guess which part of the model contains relevant information. Motivated by classic spectral clustering, we formulate this analysis in terms of an optimization objective involving a set of affinity matrices, each formed by comparing features within a different layer. Solving this optimization problem using gradient descent allows our technique to scale from single images to dataset-level analysis, including, in the latter, both intra- and inter-image relationships. Analyzing a pre-trained generative transformer provides insight into the computational strategy learned by such models. Equating affinity with key-query similarity across attention layers yields eigenvectors encoding scene spatial layout, whereas defining affinity by value vector similarity yields eigenvectors encoding object identity. This result suggests that key and query vectors coordinate attentional information flow according to spatial proximity (a `where’ pathway), while value vectors refine a semantic category representation (a `what’ pathway).

arxiv情報

著者 Xiao Zhang,David Yunis,Michael Maire
発行日 2024-06-20 15:57:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク