要約
私たちは、ディープ ニューラル ネットワークが、画像、音声、ビデオ、テキスト アプリケーションで生じるような構造化された密度を学習する際に、次元に依存しない収束率を達成することを示します。
より正確には、基礎となる密度がグラフに対するマルコフである場合、単純な $L^2$ 最小損失を持つニューラル ネットワークがノンパラメトリック密度推定で $n^{-1/(4+r)}$ のレートを達成することを示します。
クリークの最大サイズは最大 $r$ であり、前述のアプリケーションでは、このサイズは通常一定である、つまり $r=O(1)$ であるという証拠を提供します。
次に、$L^1$ の最適レートが $n^{-1/(2+r)}$ であることを確立します。これは、標準のノンパラメトリック レート $n^{-1/(2+d)} と比較したものです。
$ は、そのような問題の有効次元がマルコフ確率場における最大クリークのサイズであることを明らかにします。
これらのレートはデータの周囲の次元とは独立しているため、画像、音声、ビデオ、テキスト データの現実的なモデルに適用できます。
私たちの結果は、次元の呪いを回避する深層学習の能力に対する新たな正当化を提供し、これらの状況における次元に依存しない収束率を実証しています。
要約(オリジナル)
We show that deep neural networks achieve dimension-independent rates of convergence for learning structured densities such as those arising in image, audio, video, and text applications. More precisely, we demonstrate that neural networks with a simple $L^2$-minimizing loss achieve a rate of $n^{-1/(4+r)}$ in nonparametric density estimation when the underlying density is Markov to a graph whose maximum clique size is at most $r$, and we provide evidence that in the aforementioned applications, this size is typically constant, i.e., $r=O(1)$. We then establish that the optimal rate in $L^1$ is $n^{-1/(2+r)}$ which, compared to the standard nonparametric rate of $n^{-1/(2+d)}$, reveals that the effective dimension of such problems is the size of the largest clique in the Markov random field. These rates are independent of the data’s ambient dimension, making them applicable to realistic models of image, sound, video, and text data. Our results provide a novel justification for deep learning’s ability to circumvent the curse of dimensionality, demonstrating dimension-independent convergence rates in these contexts.
arxiv情報
著者 | Robert A. Vandermeulen,Wai Ming Tai,Bryon Aragam |
発行日 | 2024-11-22 17:50:27+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google