Interplay between depth and width for interpolation in neural ODEs

要約

ニューラル常微分方程式 (ニューラル ODE) は、制御の観点から教師あり学習のための自然なツールとして登場しましたが、その最適なアーキテクチャを完全に理解することは依然として困難です。
この研究では、それらの幅 $p$ と層遷移の数 $L$ (実質的には深さ $L+1$) の間の相互作用を調べます。
具体的には、点の $N$ ペアで構成される有限データセット $D$ または $\mathbb{R}^d$ の 2 つの確率測度を Wasserstein 誤差範囲 $\varepsilon 内で補間する能力の観点からモデルの表現力を評価します。
>0ドル。
私たちの調査結果では、$p$ と $L$ の間のバランスのトレードオフが明らかになり、$L$ はデータセット補間の $O(1+N/p)$ としてスケーリングされ、$L=O\left(1+(p\)
varepsilon^d)^{-1}\right)$ メジャー補間用。
$L=0$ の自律的なケースでは、別の研究が必要であり、データセットの内挿に焦点を当てて実施します。
$\varepsilon$-近似制御性の緩和された問題に対処し、$\varepsilon\sim O(\log(p)p^{-1/d})$ の誤差減衰を確立します。
この減衰率は、$D$ を補間するカスタム構築のリプシッツ ベクトル場に普遍近似定理を適用した結果です。
高次元の設定では、$p=O(N)$ ニューロンが正確な制御を達成するのに十分である可能性が高いことをさらに示します。

要約(オリジナル)

Neural ordinary differential equations (neural ODEs) have emerged as a natural tool for supervised learning from a control perspective, yet a complete understanding of their optimal architecture remains elusive. In this work, we examine the interplay between their width $p$ and number of layer transitions $L$ (effectively the depth $L+1$). Specifically, we assess the model expressivity in terms of its capacity to interpolate either a finite dataset $D$ comprising $N$ pairs of points or two probability measures in $\mathbb{R}^d$ within a Wasserstein error margin $\varepsilon>0$. Our findings reveal a balancing trade-off between $p$ and $L$, with $L$ scaling as $O(1+N/p)$ for dataset interpolation, and $L=O\left(1+(p\varepsilon^d)^{-1}\right)$ for measure interpolation. In the autonomous case, where $L=0$, a separate study is required, which we undertake focusing on dataset interpolation. We address the relaxed problem of $\varepsilon$-approximate controllability and establish an error decay of $\varepsilon\sim O(\log(p)p^{-1/d})$. This decay rate is a consequence of applying a universal approximation theorem to a custom-built Lipschitz vector field that interpolates $D$. In the high-dimensional setting, we further demonstrate that $p=O(N)$ neurons are likely sufficient to achieve exact control.

arxiv情報

著者 Antonio Álvarez-López,Arselane Hadj Slimane,Enrique Zuazua
発行日 2024-01-19 14:04:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 34H05, 68T07, cs.LG, math.OC, secondary パーマリンク