要約
私たちは、ニューラル崩壊 (NC) のレンズを通して、マルチラベル分類 (MLab) タスクのためのディープ ニューラル ネットワークを研究します。
これまでの研究は、マルチクラス分類設定に限定されており、最終層の特徴について次の特性で構成される一般的な NC 現象を発見しました: (i) すべてのクラス内の特徴の変動性がゼロに崩壊する、(ii) 一連の特徴
特徴平均は等角タイトフレーム (ETF) を形成し、(iii) 最後の層の分類器は何らかのスケーリングで特徴平均に折りたたまれます。
我々は研究をマルチラベル学習に一般化し、一般化されたNC現象が「すべてラベルを選択」定式化で成り立つことを初めて証明した。
制約なしフィーチャ モデル (UFM) の自然な類似物の下で、すべて選択ラベルのクロス エントロピー損失の唯一のグローバル分類子が、多重度 1 のフィーチャクラス平均にさらに崩壊する同じ ETF ジオメトリを表示することを確立します。
さらに、一般化された NC には、「タグごとの平均」プロパティと呼ばれる、マルチラベル学習に固有の組み合わせプロパティが発見されました。このプロパティでは、複数のラベルを持つサンプルのフィーチャクラスの平均が、フィーチャクラスのスケーリングされた平均になります。
単一ラベルタグの意味。
理論的には、UFM のすべて選択ラベルのクロスエントロピー リスクに対する大域的最適性の結果を確立します。
さらに、マルチラベル データセットでのディープ ニューラル ネットワークのトレーニングに関する調査をサポートする経験的証拠も提供し、トレーニング効率の向上をもたらします。
要約(オリジナル)
We study deep neural networks for the multi-label classification (MLab) task through the lens of neural collapse (NC). Previous works have been restricted to the multi-class classification setting and discovered a prevalent NC phenomenon comprising of the following properties for the last-layer features: (i) the variability of features within every class collapses to zero, (ii) the set of feature means form an equi-angular tight frame (ETF), and (iii) the last layer classifiers collapse to the feature mean upon some scaling. We generalize the study to multi-label learning, and prove for the first time that a generalized NC phenomenon holds with the ‘pick-all-label” formulation. Under the natural analog of the unconstrained feature model (UFM), we establish that the only global classifier of the pick-all-label cross entropy loss display the same ETF geometry which further collapse to multiplicity-1 feature class means. Besides, we discover a combinatorial property in generalized NC which is unique for multi-label learning that we call “tag-wise average” property, where the feature class-means of samples with multiple labels are scaled average of the feature class-means of single label tags. Theoretically, we establish global optimality result for the pick-all-label cross-entropy risk for the UFM. Additionally, We also provide empirical evidence to support our investigation into training deep neural networks on multi-label datasets, resulting in improved training efficiency.
arxiv情報
著者 | Pengyu Li,Yutong Wang,Xiao Li,Qing Qu |
発行日 | 2023-10-24 15:07:16+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google