Sparse Double Descent in Vision Transformers: real or phantom threat?

要約

ビジョン トランスフォーマー (ViT) は、最近の理論的および実証的研究において幅広い関心を集めています。
これらは注意ベースのアプローチにより最先端のものであり、誘導バイアスを回避する機能により画像内の主要な特徴とパターンの識別が向上し、結果として高精度の画像分析が可能になります。
一方、ネオテリック研究では、現代の深層学習モデルで発生する可能性のある「疎な二重降下」現象が報告されており、極端にパラメータ化されたモデルがうまく一般化できる場合があります。
これにより、モデルの最適なサイズに関する実際的な疑問が生じ、スパース性とパフォーマンスの間の最適なトレードオフを見つける探求が開始されます。ビジョン トランスフォーマーもスパース二重降下を起こしやすいのでしょうか?
このような現象を回避する方法はあるのでしょうか?
私たちの研究は、ViT でのまばらな二重降下の発生に取り組んでいます。
Resnet のような従来のアーキテクチャがスパース二重降下現象を引き起こすことを示した研究もいくつかありますが、ViT については、最適に調整された $\ell_2$ 正則化がそのような現象を軽減することが観察されています。
ただし、すべてには代償が伴います。最適なラムダは、ViT の潜在的な圧縮を犠牲にすることになります。

要約(オリジナル)

Vision transformers (ViT) have been of broad interest in recent theoretical and empirical works. They are state-of-the-art thanks to their attention-based approach, which boosts the identification of key features and patterns within images thanks to the capability of avoiding inductive bias, resulting in highly accurate image analysis. Meanwhile, neoteric studies have reported a “sparse double descent” phenomenon that can occur in modern deep-learning models, where extremely over-parametrized models can generalize well. This raises practical questions about the optimal size of the model and the quest over finding the best trade-off between sparsity and performance is launched: are Vision Transformers also prone to sparse double descent? Can we find a way to avoid such a phenomenon? Our work tackles the occurrence of sparse double descent on ViTs. Despite some works that have shown that traditional architectures, like Resnet, are condemned to the sparse double descent phenomenon, for ViTs we observe that an optimally-tuned $\ell_2$ regularization relieves such a phenomenon. However, everything comes at a cost: optimal lambda will sacrifice the potential compression of the ViT.

arxiv情報

著者 Victor Quétu,Marta Milovanovic,Enzo Tartaglione
発行日 2023-07-26 15:33:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク