Discriminating image representations with principal distortions

要約

画像表現(人工的または生物学的)は、多くの場合、グローバルな幾何学的構造の観点から比較されます。
ただし、同様のグローバル構造を持つ表現は、著しく異なるローカル幾何学を持つことができます。
ここでは、地元の幾何学の観点から画像表現のセットを比較するためのフレームワークを提案します。
フィッシャー情報マトリックスを使用して表現の局所形状を定量化します。フィッシャー情報マトリックスは、局所刺激の歪みに対する感度を特徴付ける標準統計ツールであり、これをベース画像の近くの局所形状のメトリックの基質として使用します。
このメトリックは、このメトリックの下でモデルの分散を最大化する「主要な歪み」のペアを見つけることにより、モデルのセットを最適に区別するために使用できます。
例として、このフレームワークを使用して、初期の視覚システムの一連の単純なモデルを比較し、目視検査によるモデルの即時比較を可能にする画像の歪みの新しいセットを識別します。
2番目の例では、メソッドを一連の深いニューラルネットワークモデルに適用し、アーキテクチャとトレーニングの種類によって生じるローカルジオメトリの違いを明らかにします。
これらの例は、私たちのフレームワークを使用して、複雑なモデル間の局所的な感受性の有益な違いを調査するためにどのように使用できるかを示しており、モデル表現と人間の知覚を比較するためにどのように使用できるかを示唆しています。

要約(オリジナル)

Image representations (artificial or biological) are often compared in terms of their global geometric structure; however, representations with similar global structure can have strikingly different local geometries. Here, we propose a framework for comparing a set of image representations in terms of their local geometries. We quantify the local geometry of a representation using the Fisher information matrix, a standard statistical tool for characterizing the sensitivity to local stimulus distortions, and use this as a substrate for a metric on the local geometry in the vicinity of a base image. This metric may then be used to optimally differentiate a set of models, by finding a pair of ‘principal distortions’ that maximize the variance of the models under this metric. As an example, we use this framework to compare a set of simple models of the early visual system, identifying a novel set of image distortions that allow immediate comparison of the models by visual inspection. In a second example, we apply our method to a set of deep neural network models and reveal differences in the local geometry that arise due to architecture and training types. These examples demonstrate how our framework can be used to probe for informative differences in local sensitivities between complex models, and suggest how it could be used to compare model representations with human perception.

arxiv情報

著者 Jenelle Feather,David Lipshutz,Sarah E. Harvey,Alex H. Williams,Eero P. Simoncelli
発行日 2025-05-16 17:45:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, q-bio.NC, stat.ML パーマリンク