要約
シャープネスの概念は、一般化を予測するために、MLPやCNNなどの従来のアーキテクチャに成功裏に適用されています。
しかし、変圧器については、最近の研究では、平坦性と一般化の間の弱い相関関係が報告されています。
既存のシャープネス測定値は、トランスのために失敗すると主張します。なぜなら、ネットワークまたはその損失が同一のままで、パラメーター空間に方向を誘導する注意メカニズムにはるかに豊富な対称性があるからです。
シャープネスはこれらの対称性を完全に説明しなければならないと仮定します。したがって、トランスの対称性を引用して結果として生じる商のマニホールドにそれを再定義し、それにより曖昧さを除去します。
Riemannian Geometryからのツールを活用すると、対称補正された商マニホールドの測地線ボールの観点から、シャープネスの完全に一般的な概念を提案します。
実際には、測地線に近似することに頼る必要があります。
それを行うと、既存の適応型シャープネス測定値が得られ、一般化との相関を回復するために高次の用語を含めることが重要であることを実証します。
合成データを使用した対角線ネットワークの結果を提示し、測地線のシャープネスが、テキストと画像分類タスクの両方で実際の変圧器の強い相関を明らかにしていることを示しています。
要約(オリジナル)
The concept of sharpness has been successfully applied to traditional architectures like MLPs and CNNs to predict their generalization. For transformers, however, recent work reported weak correlation between flatness and generalization. We argue that existing sharpness measures fail for transformers, because they have much richer symmetries in their attention mechanism that induce directions in parameter space along which the network or its loss remain identical. We posit that sharpness must account fully for these symmetries, and thus we redefine it on a quotient manifold that results from quotienting out the transformer symmetries, thereby removing their ambiguities. Leveraging tools from Riemannian geometry, we propose a fully general notion of sharpness, in terms of a geodesic ball on the symmetry-corrected quotient manifold. In practice, we need to resort to approximating the geodesics. Doing so up to first order yields existing adaptive sharpness measures, and we demonstrate that including higher-order terms is crucial to recover correlation with generalization. We present results on diagonal networks with synthetic data, and show that our geodesic sharpness reveals strong correlation for real-world transformers on both text and image classification tasks.
arxiv情報
著者 | Marvin F. da Silva,Felix Dangel,Sageev Oore |
発行日 | 2025-05-08 16:51:03+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google