Topological Generalization Bounds for Discrete-Time Stochastic Optimization Algorithms

要約

我々は、現代のディープ ニューラル ネットワーク (DNN) における一般化ギャップと強い相関関係を示す、厳密で計算効率の高いトポロジー ベースの複雑さの概念の新しいセットを提示します。
DNN は顕著な一般化特性を示しますが、これらの機能の源は依然としてとらえどころがなく、確立された統計学習理論に反するものです。
最近の研究では、トレーニング軌道の特性が一般化を示す可能性があることが明らかになりました。
この洞察に基づいて、最先端の手法では、これらの軌跡のトポロジー、特にフラクタル次元を利用して一般化を定量化しています。
既存の研究のほとんどは、連続時間または無限時間のトレーニングダイナミクスを想定してこの量を計算しており、テストデータにアクセスせずに一般化を正確に予測できる実用的な推定器の開発を複雑にしています。
この論文では、トレーニング軌跡の離散時間の性質を尊重し、トポロジカル データ分析ツールに適用できる、基礎となるトポロジカル量を調査します。
これにより、一般化誤差を明らかに制限する、信頼性の高いトポロジー的複雑さの尺度の新しいファミリーが得られ、制限的な幾何学的仮定の必要性が排除されます。
これらの尺度は計算に適しており、一般化インデックスを計算するためのシンプルかつ効果的なアルゴリズムを提案できます。
さらに、当社の柔軟なフレームワークは、さまざまなドメイン、タスク、アーキテクチャに拡張できます。
私たちの実験結果は、新しい複雑さの尺度が、変圧器やディープ グラフ ネットワークなどの業界標準アーキテクチャにおける汎化誤差と高度に相関していることを示しています。
私たちのアプローチは、幅広いデータセット、モデル、オプティマイザーにわたって既存のトポロジー境界を常に上回っており、複雑さの尺度の実際的な関連性と有効性を強調しています。

要約(オリジナル)

We present a novel set of rigorous and computationally efficient topology-based complexity notions that exhibit a strong correlation with the generalization gap in modern deep neural networks (DNNs). DNNs show remarkable generalization properties, yet the source of these capabilities remains elusive, defying the established statistical learning theory. Recent studies have revealed that properties of training trajectories can be indicative of generalization. Building on this insight, state-of-the-art methods have leveraged the topology of these trajectories, particularly their fractal dimension, to quantify generalization. Most existing works compute this quantity by assuming continuous- or infinite-time training dynamics, complicating the development of practical estimators capable of accurately predicting generalization without access to test data. In this paper, we respect the discrete-time nature of training trajectories and investigate the underlying topological quantities that can be amenable to topological data analysis tools. This leads to a new family of reliable topological complexity measures that provably bound the generalization error, eliminating the need for restrictive geometric assumptions. These measures are computationally friendly, enabling us to propose simple yet effective algorithms for computing generalization indices. Moreover, our flexible framework can be extended to different domains, tasks, and architectures. Our experimental results demonstrate that our new complexity measures correlate highly with generalization error in industry-standards architectures such as transformers and deep graph networks. Our approach consistently outperforms existing topological bounds across a wide range of datasets, models, and optimizers, highlighting the practical relevance and effectiveness of our complexity measures.

arxiv情報

著者 Rayna Andreeva,Benjamin Dupuis,Rik Sarkar,Tolga Birdal,Umut Şimşekli
発行日 2024-07-11 17:56:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.AT パーマリンク