要約
変圧器は、自然言語処理とコンピュータービジョンの顕著なブレークスルーを駆動していますが、標準的な注意メカニズムは依然としてO(n^2)の複雑さを課し、より長いシーケンスにスケーラビリティを妨げます。
表現力を犠牲にすることなく複雑さを減らすために循環畳み込みを効率的に適用するフーリエベースのアプローチである円形の巻き込みの注意(CAT)を紹介します。
CATはO(nlogn)計算を達成し、完全に接続されたレイヤーを合理化することにより学習可能なパラメーターが少なくなり、より重い操作が導入されないため、Imagenet-1KやWikitext-103などの大規模なベンチマークでのナイーブなPytorchの実装での一貫した精度の改善と約10%のスピードアップが得られます。
Engineering-somorphism Frameworkに基づいて、CATのデザインは、実用的な効率と実装の容易さを提供するだけでなく、次世代の高性能変圧器アーキテクチャの開発を導く洞察も提供します。
最後に、私たちのアブレーション研究は、猫の成功の根底にある重要な条件を強調し、スケーラブルな注意メカニズムのためのより広い原則に光を当てています。
要約(オリジナル)
Transformers have driven remarkable breakthroughs in natural language processing and computer vision, yet their standard attention mechanism still imposes O(N^2) complexity, hindering scalability to longer sequences. We introduce Circular-convolutional ATtention (CAT), a Fourier-based approach that efficiently applies circular convolutions to reduce complexity without sacrificing representational power. CAT achieves O(NlogN) computations, requires fewer learnable parameters by streamlining fully-connected layers, and introduces no heavier operations, resulting in consistent accuracy improvements and about a 10% speedup in naive PyTorch implementations on large-scale benchmarks such as ImageNet-1k and WikiText-103. Grounded in an engineering-isomorphism framework, CAT’s design not only offers practical efficiency and ease of implementation but also provides insights to guide the development of next-generation, high-performance Transformer architectures. Finally, our ablation studies highlight the key conditions underlying CAT’s success, shedding light on broader principles for scalable attention mechanisms.
arxiv情報
著者 | Yoshihiro Yamada |
発行日 | 2025-04-09 09:08:26+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google