要約
安全で信頼性があり、解釈可能な深層学習システムを実現するための重要な特性は、その堅牢性です。つまり、システムの入力に対する小さな変更が出力に大きな変更をもたらすべきではありません。
数学的には、これはリプシッツ定数が小さいネットワークを目指すことを意味します。
最近の研究のいくつかは、通常は重み行列に制約を課すことによって、このようなリプシッツ ネットワークを構築する方法に焦点を当てています。
この研究では、直交的な側面、つまり活性化関数の役割を研究します。
MaxMin などの一般的に使用される活性化関数、および 2 つのセグメントを持つすべての区分線形関数は、最も単純な 1 次元設定であっても、表現可能な関数のクラスを不必要に制限することを示します。
さらに、現在一般的な活性化関数よりも表現力が高い新しい N-活性化関数を導入します。
コードは https://github.com/berndprach/NActivation で提供されています。
要約(オリジナル)
A crucial property for achieving secure, trustworthy and interpretable deep learning systems is their robustness: small changes to a system’s inputs should not result in large changes to its outputs. Mathematically, this means one strives for networks with a small Lipschitz constant. Several recent works have focused on how to construct such Lipschitz networks, typically by imposing constraints on the weight matrices. In this work, we study an orthogonal aspect, namely the role of the activation function. We show that commonly used activation functions, such as MaxMin, as well as all piece-wise linear ones with two segments unnecessarily restrict the class of representable functions, even in the simplest one-dimensional setting. We furthermore introduce the new N-activation function that is provably more expressive than currently popular activation functions. We provide code at https://github.com/berndprach/NActivation.
arxiv情報
著者 | Bernd Prach,Christoph H. Lampert |
発行日 | 2023-11-10 15:12:04+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google