要約
微積分の変数変更規則に従うモデルの再パラメータ化は、ニューラル ネットのトレーニングを改善する一般的な方法です。
しかし、これは、ヘッセ行列に基づく平坦性測定、最適化軌道、確率密度モードなどに不一致を引き起こす可能性があるため、問題となる可能性もあります。
これにより、下流の分析が複雑になります。
任意の再パラメータ化によりそれらの関係が変化するため、平坦性と一般化を決定的に関連付けることはできません。
この研究では、リーマン幾何学の観点から、再パラメータ化下のニューラルネットの不変性を研究します。
この観点からすると、メトリックを明示的に表し、関連する適切な変換ルールを使用する場合、不変性はニューラル ネットに固有の特性となります。
これは重要です。なぜなら、メトリックは常に存在しますが、多くの場合、暗黙的に同一性とみなされ、表記から削除され、その後再パラメータ化で失われるからです。
最小値の平坦性の測定、最適化、および確率密度の最大化への影響について説明します。
最後に、不変性が役立ついくつかの興味深い方向性を探ります。
要約(オリジナル)
Model reparametrization, which follows the change-of-variable rule of calculus, is a popular way to improve the training of neural nets. But it can also be problematic since it can induce inconsistencies in, e.g., Hessian-based flatness measures, optimization trajectories, and modes of probability densities. This complicates downstream analyses: e.g. one cannot definitively relate flatness with generalization since arbitrary reparametrization changes their relationship. In this work, we study the invariance of neural nets under reparametrization from the perspective of Riemannian geometry. From this point of view, invariance is an inherent property of any neural net if one explicitly represents the metric and uses the correct associated transformation rules. This is important since although the metric is always present, it is often implicitly assumed as identity, and thus dropped from the notation, then lost under reparametrization. We discuss implications for measuring the flatness of minima, optimization, and for probability-density maximization. Finally, we explore some interesting directions where invariance is useful.
arxiv情報
著者 | Agustinus Kristiadi,Felix Dangel,Philipp Hennig |
発行日 | 2023-10-23 17:04:14+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google