Learning Discretized Neural Networks under Ricci Flow

要約

この論文では、低精度の重みと活性化で構成される離散化ニューラル ネットワーク (DNN) について研究します。DNN は、トレーニング中の微分不可能な離散関数により、無限またはゼロの勾配のいずれかに悩まされます。
このようなシナリオにおけるほとんどのトレーニングベースの DNN は、標準のストレートスルー推定器 (STE) を使用して、全体の勾配を近似します。
離散値。
ただし、STE を使用すると、近似勾配の摂動から生じる勾配の不一致の問題が生じます。
この問題に対処するために、この論文は、双対性理論のレンズを通して見ると、この不一致がリーマン多様体の計量摂動として解釈できることを明らかにしました。
情報幾何学に基づいて、DNN の線形近似ユークリッド (LNE) 多様体を構築し、摂動に対処するための背景を提供します。
計量に偏微分方程式、つまりリッチ流を導入することにより、$L^2$-ノルム摂動によるLNE計量の動的安定性と収束を確立します。
分数べき乗での収束率を伴う以前の摂動理論とは対照的に、リッチ流の下での計量摂動は、LNE 多様体で指数関数的な減衰を示します。
さまざまなデータセットにわたる実験結果は、私たちの方法が他の代表的なトレーニングベースの方法と比較して、DNN に対して優れたより安定したパフォーマンスを達成することを示しています。

要約(オリジナル)

In this paper, we study Discretized Neural Networks (DNNs) composed of low-precision weights and activations, which suffer from either infinite or zero gradients due to the non-differentiable discrete function during training. Most training-based DNNs in such scenarios employ the standard Straight-Through Estimator (STE) to approximate the gradient w.r.t. discrete values. However, the use of STE introduces the problem of gradient mismatch, arising from perturbations in the approximated gradient. To address this problem, this paper reveals that this mismatch can be interpreted as a metric perturbation in a Riemannian manifold, viewed through the lens of duality theory. Building on information geometry, we construct the Linearly Nearly Euclidean (LNE) manifold for DNNs, providing a background for addressing perturbations. By introducing a partial differential equation on metrics, i.e., the Ricci flow, we establish the dynamical stability and convergence of the LNE metric with the $L^2$-norm perturbation. In contrast to previous perturbation theories with convergence rates in fractional powers, the metric perturbation under the Ricci flow exhibits exponential decay in the LNE manifold. Experimental results across various datasets demonstrate that our method achieves superior and more stable performance for DNNs compared to other representative training-based methods.

arxiv情報

著者 Jun Chen,Hanwen Chen,Mengmeng Wang,Guang Dai,Ivor W. Tsang,Yong Liu
発行日 2024-01-04 14:18:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.IT, cs.LG, cs.NE, math.IT パーマリンク