要約
ニューラル ネットワークの動作は依然として不透明なままであり、最近広く注目されている現象は、ネットワークが異なるランダム パラメーターで初期化された場合に同様のパフォーマンスを達成することが多いということです。
この現象は、異なるネットワークによって学習された特徴間の類似性を測定する際に大きな注目を集めています。
ただし、同等の機能がほとんど存在しないため、同じ機能を説明する場合、機能の類似性が曖昧になる可能性があります。
このペーパーでは、同等の機能の概念を拡張し、いわゆる機能的に同等の機能の定義を提供します。
これらの機能は、特定の変換の下で同等の出力を生成します。
この定義を使用して、各層でニューラル ネットワークによって学習された特徴の冗長性に関する、いわゆる特徴の複雑さのより本質的な指標を導き出すことを目的としています。
私たちは、数学のよく発達した領域である圏論のレンズを通して、私たちのアプローチの正式な解釈を提供します。
特徴の複雑さを定量化するために、反復特徴結合という名前の効率的なアルゴリズムをさらに提案します。
私たちの実験結果は、さまざまな観点から私たちのアイデアと理論を検証します。
私たちは、同じニューラル ネットワークによって学習された異なる特徴間には機能的に等価性が広く存在し、パフォーマンスに影響を与えることなくネットワークのパラメーターの数を減らすことができることを経験的に示しました。IFM は、データに依存しないモデルのプルーニング手法として大きな可能性を示しています。
また、定義された機能の複雑さに関して、いくつかの興味深い経験的発見も得られました。
要約(オリジナル)
The behavior of neural networks still remains opaque, and a recently widely noted phenomenon is that networks often achieve similar performance when initialized with different random parameters. This phenomenon has attracted significant attention in measuring the similarity between features learned by distinct networks. However, feature similarity could be vague in describing the same feature since equivalent features hardly exist. In this paper, we expand the concept of equivalent feature and provide the definition of what we call functionally equivalent features. These features produce equivalent output under certain transformations. Using this definition, we aim to derive a more intrinsic metric for the so-called feature complexity regarding the redundancy of features learned by a neural network at each layer. We offer a formal interpretation of our approach through the lens of category theory, a well-developed area in mathematics. To quantify the feature complexity, we further propose an efficient algorithm named Iterative Feature Merging. Our experimental results validate our ideas and theories from various perspectives. We empirically demonstrate that the functionally equivalence widely exists among different features learned by the same neural network and we could reduce the number of parameters of the network without affecting the performance.The IFM shows great potential as a data-agnostic model prune method. We have also drawn several interesting empirical findings regarding the defined feature complexity.
arxiv情報
著者 | Yiting Chen,Zhanpeng Zhou,Junchi Yan |
発行日 | 2023-10-10 16:27:12+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google