Deep Learning as Ricci Flow

要約

ディープ ニューラル ネットワーク (DNN) は、複雑なデータの分布を近似するための強力なツールです。
トレーニング済み DNN 分類器を通過するデータは、一連の幾何学的および位相的単純化を受けることが知られています。
滑らかな活性化関数を使用したニューラル ネットワークにおけるこれらの変換の理解に向けてはある程度の進歩が見られましたが、パフォーマンスが向上する傾向がある整流線形単位 (ReLU) などの非滑らかな活性化関数のより一般的な設定での理解が必要です。

ここで我々は、分類タスク中に DNN によって実行される幾何学的変換が、ハミルトンのリッチ フロー (トポロジーを識別するために曲率を平滑化することによって多様体を進化させる微分幾何学からのツール) の下で期待されるものと類似していることを提案します。
このアイデアを説明するために、データが DNN の連続層を通過するときに発生する幾何学的変化を定量化する計算フレームワークを提示します。また、このフレームワークを使用して、DNN の評価に使用できる「グローバル リッチ ネットワーク フロー」の概念を動機付けます。
複雑なデータ形状を解きほぐして分類問題を解決する能力。
さまざまな幅と深さの 1,500 ドルを超える DNN 分類器を合成データと実世界のデータでトレーニングすることにより、深さ、幅、データとは無関係に、グローバルなリッチ ネットワークのフローのような動作の強さが、よくトレーニングされた DNN の精度と相関することを示しました。
セット。
私たちの発見は、微分幾何学や離散幾何学から深層学習における説明可能性の問題に至るまでのツールの使用を動機づけます。

要約(オリジナル)

Deep neural networks (DNNs) are powerful tools for approximating the distribution of complex data. It is known that data passing through a trained DNN classifier undergoes a series of geometric and topological simplifications. While some progress has been made toward understanding these transformations in neural networks with smooth activation functions, an understanding in the more general setting of non-smooth activation functions, such as the rectified linear unit (ReLU), which tend to perform better, is required. Here we propose that the geometric transformations performed by DNNs during classification tasks have parallels to those expected under Hamilton’s Ricci flow – a tool from differential geometry that evolves a manifold by smoothing its curvature, in order to identify its topology. To illustrate this idea, we present a computational framework to quantify the geometric changes that occur as data passes through successive layers of a DNN, and use this framework to motivate a notion of `global Ricci network flow’ that can be used to assess a DNN’s ability to disentangle complex data geometries to solve classification problems. By training more than $1,500$ DNN classifiers of different widths and depths on synthetic and real-world data, we show that the strength of global Ricci network flow-like behaviour correlates with accuracy for well-trained DNNs, independently of depth, width and data set. Our findings motivate the use of tools from differential and discrete geometry to the problem of explainability in deep learning.

arxiv情報

著者 Anthony Baptista,Alessandro Barp,Tapabrata Chakraborti,Chris Harbron,Ben D. MacArthur,Christopher R. S. Banerji
発行日 2024-04-22 15:12:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.DG パーマリンク