要約
変圧器ベースのアーキテクチャは、自然言語処理、コンピュータービジョン、および音声における幅広いタスクにわたって最先端のパフォーマンスを実現します。
ただし、特にトレーニングデータが制限されているか騒がしい場合、その膨大な能力はしばしば過剰適合につながります。
私たちは、自己関節分布で直接動作する確率的正則化技術の統一されたファミリーである注意を提案します。
3つのバリアントを紹介します。1。ハード注意マスキング:ランダムにゼロクエリごとにトップKの注意ロジットをゼロにして、多様なコンテキストの利用を促進します。
2。ぼやけた注意の平滑化:注意ロジットよりも動的なガウスの畳み込みを適用して、過度にピークになった分布を拡散させます。
3。一貫性の正規化された注意ドロップ:KLベースの一貫性の損失を介して、複数の独立した注意ドロップ摂動の下で出力の安定性を実施します。
要約(オリジナル)
Transformer-based architectures achieve state-of-the-art performance across a wide range of tasks in natural language processing, computer vision, and speech. However, their immense capacity often leads to overfitting, especially when training data is limited or noisy. We propose AttentionDrop, a unified family of stochastic regularization techniques that operate directly on the self-attention distributions. We introduces three variants: 1. Hard Attention Masking: randomly zeroes out top-k attention logits per query to encourage diverse context utilization. 2. Blurred Attention Smoothing: applies a dynamic Gaussian convolution over attention logits to diffuse overly peaked distributions. 3. Consistency-Regularized AttentionDrop: enforces output stability under multiple independent AttentionDrop perturbations via a KL-based consistency loss.
arxiv情報
著者 | Mirza Samad Ahmed Baig,Syeda Anshrah Gillani,Abdul Akbar Khan,Shahid Munir Shah |
発行日 | 2025-04-16 13:51:16+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google