Dynamical systems’ based neural networks

要約

ニューラル ネットワークは、多くのアプリケーションで有効であるため、大きな関心を集めています。
ただし、それらの数学的性質は一般によく理解されていません。
データまたは近似する関数に固有の基礎となる幾何学的構造がある場合、ニューラル ネットワークの設計においてこれを考慮することが望ましいことがよくあります。
この作業では、非自律 ODE から開始し、構造を保持する適切な数値時間離散化を使用してニューラル ネットワークを構築します。
次に、ニューラル ネットワークの構造が ODE ベクトル場のプロパティから推測されます。
このモデリング手順により、ネットワーク アーキテクチャにさらに多くの構造を注入するだけでなく、その動作を理論的により深く理解できるようになります。
2 つの普遍的な近似結果を提示し、ニューラル ネットワークにいくつかの特定のプロパティを課す方法を示します。
特に、1-リプシッツではない層を含む 1-リプシッツ アーキテクチャに焦点を当てています。
CIFAR-10 および CIFAR-100 データセットで示されているように、これらのネットワークは表現力が豊かで、敵対的な攻撃に対して堅牢です。

要約(オリジナル)

Neural networks have gained much interest because of their effectiveness in many applications. However, their mathematical properties are generally not well understood. If there is some underlying geometric structure inherent to the data or to the function to approximate, it is often desirable to take this into account in the design of the neural network. In this work, we start with a non-autonomous ODE and build neural networks using a suitable, structure-preserving, numerical time-discretisation. The structure of the neural network is then inferred from the properties of the ODE vector field. Besides injecting more structure into the network architectures, this modelling procedure allows a better theoretical understanding of their behaviour. We present two universal approximation results and demonstrate how to impose some particular properties on the neural networks. A particular focus is on 1-Lipschitz architectures including layers that are not 1-Lipschitz. These networks are expressive and robust against adversarial attacks, as shown for the CIFAR-10 and CIFAR-100 datasets.

arxiv情報

著者 Elena Celledoni,Davide Murari,Brynjulf Owren,Carola-Bibiane Schönlieb,Ferdia Sherry
発行日 2023-08-31 17:12:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 37M15, 65L05, 65L06, cs.LG, cs.NA, math.DS, math.NA パーマリンク