Learning Discretized Neural Networks under Ricci Flow

要約

タイトル: リッチフロー下でのディスクリエティズドニューラルネットワークの学習
要約:
– 低精度の重みと活性化を持つディスクリエティズドニューラルネットワーク(DNN)を考える。
– このようなネットワークは、訓練プロセス中の微分不可能な離散関数による無限またはゼロの勾配に苦しんでいる。
– このような場合、ほとんどの訓練ベースのDNNは、離散値に関する勾配を近似するために標準的なStraight-Through Estimator(STE)を使用する。
– しかしながら、STEは近似された勾配の摂動によって勾配ミスマッチの問題を引き起こす。
– この問題に対処するために、本論文は、デュアリティ理論のレンズを通じて、このミスマッチが、リーマン多様体におけるメトリックの摂動として見ることができることを明らかにする。
– さらに、情報幾何学に基づいて、摂動を扱うための背景としてDNNのリニア近似ユークリッド(LNE)多様体を構築する。
– メトリックの偏微分方程式であるリッチフローを導入することにより、LNEメトリックの$L^2$-ノルム摂動に対する動的な安定性と収束を証明する。
– 収束率が分数乗数である以前の摂動理論とは異なり、リッチフロー下でのメトリック摂動は、LNE多様体内で指数的に減衰することができる。
– 多様なデータセットに対する実験結果は、我々の手法が、他の代表的な訓練ベースの手法よりもDNNのパフォーマンスがより良く、より安定していることを示している。

要約(オリジナル)

In this paper, we consider Discretized Neural Networks (DNNs) consisting of low-precision weights and activations, which suffer from either infinite or zero gradients due to the non-differentiable discrete function in the training process. In this case, most training-based DNNs employ the standard Straight-Through Estimator (STE) to approximate the gradient w.r.t. discrete values. However, the STE gives rise to the problem of gradient mismatch, due to the perturbations of the approximated gradient. To address this problem, this paper reveals that this mismatch can be viewed as a metric perturbation in a Riemannian manifold through the lens of duality theory. Further, on the basis of the information geometry, we construct the Linearly Nearly Euclidean (LNE) manifold for DNNs as a background to deal with perturbations. By introducing a partial differential equation on metrics, i.e., the Ricci flow, we prove the dynamical stability and convergence of the LNE metric with the $L^2$-norm perturbation. Unlike the previous perturbation theory whose convergence rate is the fractional powers, the metric perturbation under the Ricci flow can be exponentially decayed in the LNE manifold. The experimental results on various datasets demonstrate that our method achieves better and more stable performance for DNNs than other representative training-based methods.

arxiv情報

著者 Jun Chen,Hanwen Chen,Mengmeng Wang,Guang Dai,Ivor W. Tsang,Yong Liu
発行日 2023-04-25 10:44:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.IT, cs.LG, cs.NE, math.IT パーマリンク