Pre-processing and Compression: Understanding Hidden Representation Refinement Across Imaging Domains via Intrinsic Dimension

要約

近年、ニューラル ネットワークの隠れた表現の固有次元 (ID) などの幾何学的特性が層を通じてどのように変化するか、またそのような特性が汎化能力などの重要なモデルの動作をどのように予測するかに関心が集まっています。
しかし、そのような動作は、自然画像と医療画像など、ネットワークのトレーニング データの領域に応じて大きく変化する可能性があるという証拠が現れ始めています。
ここでは、ネットワークの学習された表現の ID が層を通じてどのように変化するかを調査することで、この調査をさらに深めます。これは、本質的に、予測に使用される入力データの情報内容をネットワークがどのように連続的に洗練するかを特徴付けるものです。
6 つのネットワーク アーキテクチャにわたる 11 の自然画像データセットと医用画像データセットを分析したところ、ネットワークを介して ID がどのように変化するかが自然画像モデルと医用画像モデルの間で顕著に異なることがわかりました。
具体的には、医療画像モデルはネットワークの早い段階で表現 ID のピークに達し、これらのドメインの下流タスクに通常使用される画像特徴とその抽象性の違いを意味します。
さらに、このピーク表現 ID とその入力空間内のデータの ID との強い相関関係も発見しました。これは、モデルの学習された表現の固有情報内容が、トレーニングに使用されたデータの内容によって導かれていることを意味します。
全体として、私たちの調査結果は、隠蔽表現情報コンテンツに関する自然画像ドメインと非自然画像ドメインの間のネットワーク動作の顕著な相違を強調し、ネットワークの学習された特徴がトレーニング データによってどのように形成されるかについてのさらなる洞察を提供します。

要約(オリジナル)

In recent years, there has been interest in how geometric properties such as intrinsic dimension (ID) of a neural network’s hidden representations change through its layers, and how such properties are predictive of important model behavior such as generalization ability. However, evidence has begun to emerge that such behavior can change significantly depending on the domain of the network’s training data, such as natural versus medical images. Here, we further this inquiry by exploring how the ID of a network’s learned representations changes through its layers, in essence, characterizing how the network successively refines the information content of input data to be used for predictions. Analyzing eleven natural and medical image datasets across six network architectures, we find that how ID changes through the network differs noticeably between natural and medical image models. Specifically, medical image models peak in representation ID earlier in the network, implying a difference in the image features and their abstractness that are typically used for downstream tasks in these domains. Additionally, we discover a strong correlation of this peak representation ID with the ID of the data in its input space, implying that the intrinsic information content of a model’s learned representations is guided by that of the data it was trained on. Overall, our findings emphasize notable discrepancies in network behavior between natural and non-natural imaging domains regarding hidden representation information content, and provide further insights into how a network’s learned features are shaped by its training data.

arxiv情報

著者 Nicholas Konz,Maciej A. Mazurowski
発行日 2024-09-04 14:52:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, eess.IV, stat.ML パーマリンク