On Characterizing the Evolution of Embedding Space of Neural Networks using Algebraic Topology

要約

私たちは、特徴埋め込み空間のトポロジーが、Betti 数を通じて十分に訓練されたディープ ニューラル ネットワーク (DNN) の層を通過する際にどのように変化するかを研究します。
浅い完全接続ネットワーク (FCN) 上の単純な複合体を使用した既存の研究を動機として、代わりに Cubical ホモロジーを使用し、さまざまな一般的な深層アーキテクチャと実際の画像データセットを使用した拡張解析を紹介します。
深さが増すにつれて、トポロジー的に複雑なデータセットが単純なデータセットに変換され、その結果、Betti 数が可能な限り低い値になることを示します。
トポロジの複雑さの減衰率 (指標として) は、一般化能力に対するアーキテクチャの選択の影響を定量化するのに役立ちます。
表現学習の観点から興味深いことに、(1) 類似したデータセット上のアーキテクチャのトポロジー的不変性など、いくつかの不変性を強調しています。
(2) 可変深さのアーキテクチャのデータセットの埋め込み空間。
(3) 入力解像度/サイズへの埋め込みスペース、および (4) データのサブサンプリング。
ネットワークの表現力と一般化能力の間の関連性をさらに実証するために、下流の分類タスク (転移学習) で事前トレーニングされたモデルをランク付けするタスクを検討します。
既存のアプローチと比較して、提案されたメトリクスは、事前トレーニングされたモデルを微調整することで実際に達成可能な精度とより良い相関関係を持っています。

要約(オリジナル)

We study how the topology of feature embedding space changes as it passes through the layers of a well-trained deep neural network (DNN) through Betti numbers. Motivated by existing studies using simplicial complexes on shallow fully connected networks (FCN), we present an extended analysis using Cubical homology instead, with a variety of popular deep architectures and real image datasets. We demonstrate that as depth increases, a topologically complicated dataset is transformed into a simple one, resulting in Betti numbers attaining their lowest possible value. The rate of decay in topological complexity (as a metric) helps quantify the impact of architectural choices on the generalization ability. Interestingly from a representation learning perspective, we highlight several invariances such as topological invariance of (1) an architecture on similar datasets; (2) embedding space of a dataset for architectures of variable depth; (3) embedding space to input resolution/size, and (4) data sub-sampling. In order to further demonstrate the link between expressivity \& the generalization capability of a network, we consider the task of ranking pre-trained models for downstream classification task (transfer learning). Compared to existing approaches, the proposed metric has a better correlation to the actually achievable accuracy via fine-tuning the pre-trained model.

arxiv情報

著者 Suryaka Suresh,Bishshoy Das,Vinayak Abrol,Sumantra Dutta Roy
発行日 2023-11-09 15:29:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク