要約
機械学習モデルの分離能力は、異なる入力を区別する能力を指し、多くの場合、その表現力の代用として使用されます。
実際、モデル群の分離能力を知ることは、きめ細かい普遍性の結果を得るために必要な条件です。
この論文では、畳み込みネットワークや順列不変ネットワークなどの等変ニューラル ネットワークの分離能力を分析します。
まず、特定のアーキテクチャによって導出されたモデルでは区別できない入力の完全な特性評価を示します。
この結果から、分離可能性がハイパーパラメータやアーキテクチャ上の選択 (活性化関数、深さ、隠れ層の幅、表現タイプなど) によってどのように影響されるかを導き出します。
特に、ReLU やシグモイドを含むすべての非多項式活性化は表現力において同等であり、最大の分離能力に達します。
深さを増やすと分離力が閾値まで向上しますが、それ以降はそれ以上増やしても効果がありません。
非表示表現に不変特徴を追加しても、分離能力には影響しません。
最後に、隠れた表現のブロック分解は分離性に影響を与え、最小限のコンポーネントが分離能力の階層を形成し、モデルの分離能力を比較するための簡単な方法を提供します。
要約(オリジナル)
The separation power of a machine learning model refers to its ability to distinguish between different inputs and is often used as a proxy for its expressivity. Indeed, knowing the separation power of a family of models is a necessary condition to obtain fine-grained universality results. In this paper, we analyze the separation power of equivariant neural networks, such as convolutional and permutation-invariant networks. We first present a complete characterization of inputs indistinguishable by models derived by a given architecture. From this results, we derive how separability is influenced by hyperparameters and architectural choices-such as activation functions, depth, hidden layer width, and representation types. Notably, all non-polynomial activations, including ReLU and sigmoid, are equivalent in expressivity and reach maximum separation power. Depth improves separation power up to a threshold, after which further increases have no effect. Adding invariant features to hidden representations does not impact separation power. Finally, block decomposition of hidden representations affects separability, with minimal components forming a hierarchy in separation power that provides a straightforward method for comparing the separation power of models.
arxiv情報
著者 | Marco Pacini,Xiaowen Dong,Bruno Lepri,Gabriele Santin |
発行日 | 2024-12-10 13:03:40+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google