Gradient Descent Robustly Learns the Intrinsic Dimension of Data in Training Convolutional Neural Networks

要約

最新のニューラルネットワークは通常、非常に過剰なパラメーター化されています。
過剰パラメーター化されたネットワークの幅広い使用法の背後にあるのは、データが単純である場合、トレーニングされたネットワークが単純な予測因子と自動的に同等になるという信念です。
この直感に続いて、多くの既存の作品は、ニューラルネットワークの「ランク」とデータのランクとの関係のさまざまな概念を研究しています。
この作業では、勾配降下によって訓練された畳み込みニューラルネットワーク(CNNS)のランクを研究し、ランクの堅牢性を画像の背景ノイズに特に焦点を当てています。
具体的には、画像にバックグラウンドノイズを追加すると、勾配降下でトレーニングされたCNNのランクがデータのランクと比較してはるかに少ない影響を受けていることを指摘します。
理論的なケーススタディで主張をサポートします。このケーススタディでは、バックグラウンドノイズが追加された低ランクのクリーン画像を特徴付ける特定のデータモデルを検討します。
勾配降下によって訓練されたCNNSは、比較的大きな背景ノイズの存在にもかかわらず、きれいな画像の本質的な次元を学ぶことができることを証明しています。
また、請求をさらに検証するために、合成および実際のデータセットで実験を実施します。

要約(オリジナル)

Modern neural networks are usually highly over-parameterized. Behind the wide usage of over-parameterized networks is the belief that, if the data are simple, then the trained network will be automatically equivalent to a simple predictor. Following this intuition, many existing works have studied different notions of ‘ranks’ of neural networks and their relation to the rank of data. In this work, we study the rank of convolutional neural networks (CNNs) trained by gradient descent, with a specific focus on the robustness of the rank to image background noises. Specifically, we point out that, when adding background noises to images, the rank of the CNN trained with gradient descent is affected far less compared with the rank of the data. We support our claim with a theoretical case study, where we consider a particular data model to characterize low-rank clean images with added background noises. We prove that CNNs trained by gradient descent can learn the intrinsic dimension of clean images, despite the presence of relatively large background noises. We also conduct experiments on synthetic and real datasets to further validate our claim.

arxiv情報

著者 Chenyang Zhang,Peifeng Gao,Difan Zou,Yuan Cao
発行日 2025-04-11 15:29:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML パーマリンク