要約
Brenierは、ソースおよびターゲット確率測定の特定の条件下で、その勾配がソースからターゲット分布への輸送マップであるように、厳密に凸関数が存在することを証明しました。
この関数は、ブレニエ電位と呼ばれます。
さらに、ブレニエポテンシャルのh \ ‘より古い規則性に関する詳細情報が利用可能です。
この作業では、ブレニエの可能性を学習する生成的敵対的な神経ネットワークの統計学習理論を開発します。
密度式の変換によって、生成された測定の密度は、ブレニエ電位の2番目の微分に依存します。
密度。
このような一般的なネットワークの凸性を保証するために、古典的な識別子クロスエントロピー損失を(厳密な)凸性を施行するペナルティ期間を組み合わせたRecuネットワークによって表される潜在的な関数について、敵対的なトレーニング手順を導入します。
学習エラーの詳細な分解を示し、適切な高いペナルティパラメーターの場合、敵対的なMIN-MAX最適化問題で選択されたすべてのネットワークが厳密に凸であることを示します。
これは、ネットワーク容量を拡大する(ゆっくりと)学習手順の一貫性を証明するためにさらに活用されます。
また、記載されている学習アルゴリズムを実装し、ガウス混合物からターゲット分布として画像データまで多くの標準テストケースに適用します。
理論的に予測されているように、トレーニングプロセス中に凸の損失が非アクティブになり、ニューラルネットワークによって表される可能性が凸性を学んだことが観察されます。
要約(オリジナル)
Brenier proved that under certain conditions on a source and a target probability measure there exists a strictly convex function such that its gradient is a transport map from the source to the target distribution. This function is called the Brenier potential. Furthermore, detailed information on the H\’older regularity of the Brenier potential is available. In this work we develop the statistical learning theory of generative adversarial neural networks that learn the Brenier potential. As by the transformation of densities formula, the density of the generated measure depends on the second derivative of the Brenier potential, we develop the universal approximation theory of ReCU networks with cubic activation $\mathtt{ReCU}(x)=\max\{0,x\}^3$ that combines the favorable approximation properties of H\’older functions with a Lipschitz continuous density. In order to assure the convexity of such general networks, we introduce an adversarial training procedure for a potential function represented by the ReCU networks that combines the classical discriminator cross entropy loss with a penalty term that enforces (strict) convexity. We give a detailed decomposition of learning errors and show that for a suitable high penalty parameter all networks chosen in the adversarial min-max optimization problem are strictly convex. This is further exploited to prove the consistency of the learning procedure for (slowly) expanding network capacity. We also implement the described learning algorithm and apply it to a number of standard test cases from Gaussian mixture to image data as target distributions. As predicted in theory, we observe that the convexity loss becomes inactive during the training process and the potentials represented by the neural networks have learned convexity.
arxiv情報
著者 | Claudia Drygala,Hanno Gottschalk,Thomas Kruse,Ségolène Martin,Annika Mütze |
発行日 | 2025-04-28 13:24:52+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google