DropKey

要約

本論文では、Vision Transformerの自己アテンション層に対するドロップアウト技術の解析と改良に焦点を当てる。特に、3つのコアな疑問について研究を行う。第一に、自己注視層で何を落とすか?本研究では、注目度重みの削除とは異なり、注目度行列の計算より前に削除操作を行い、削除単位をKeyとすることで、新しいdropout-before-softmax方式を提案する。この方式により、注意重みの正則化と確率の両方の特徴を保持することができ、特定のパターンへの過剰適合の問題を軽減し、重要な情報をグローバルに捕らえるモデルを強化できることを理論的に検証する。 第二に、連続した層でのドロップ比率をどのようにスケジュールするか。第二に、連続する層のドロップ率をどのように設定するか。全ての層でドロップ率を一定にするのとは対照的に、我々は自己注意の層に沿ってドロップ率を徐々に減少させる新しいスケジュールを提示する。我々は、提案するスケジュールが、低レベルの特徴における過剰適合や高レベルのセマンティクスにおける欠落を回避し、モデル学習の頑健性と安定性を向上させることを実験的に検証した;第三に、CNNとして構造化ドロップアウト操作を行う必要があるか?我々は、パッチベースのブロック版ドロップアウト操作を試み、CNNで有用なこのトリックがViTでは必須ではないことを見いだした。以上の3つの疑問について検討した結果、我々は、キーをドロップユニットとみなし、ドロップ比率の減少スケジュールを利用することで、一般的にViTを改善する新しいDropKey法を提示する。DropKeyの有効性は、様々なViTアーキテクチャ(例えば、T2T、VOLOなど)に対して包括的な実験により実証されています。また、画像分類、物体検出、人間-物体相互作用検出、人体形状復元など、様々なビジョンタスクに対して、DropKeyの有効性を実証しています。採択された場合、コードを公開します。

要約(オリジナル)

In this paper, we focus on analyzing and improving the dropout technique for self-attention layers of Vision Transformer, which is important while surprisingly ignored by prior works. In particular, we conduct researches on three core questions: First, what to drop in self-attention layers? Different from dropping attention weights in literature, we propose to move dropout operations forward ahead of attention matrix calculation and set the Key as the dropout unit, yielding a novel dropout-before-softmax scheme. We theoretically verify that this scheme helps keep both regularization and probability features of attention weights, alleviating the overfittings problem to specific patterns and enhancing the model to globally capture vital information; Second, how to schedule the drop ratio in consecutive layers? In contrast to exploit a constant drop ratio for all layers, we present a new decreasing schedule that gradually decreases the drop ratio along the stack of self-attention layers. We experimentally validate the proposed schedule can avoid overfittings in low-level features and missing in high-level semantics, thus improving the robustness and stableness of model training; Third, whether need to perform structured dropout operation as CNN? We attempt patch-based block-version of dropout operation and find that this useful trick for CNN is not essential for ViT. Given exploration on the above three questions, we present the novel DropKey method that regards Key as the drop unit and exploits decreasing schedule for drop ratio, improving ViTs in a general way. Comprehensive experiments demonstrate the effectiveness of DropKey for various ViT architectures, \emph{e.g.} T2T and VOLO, as well as for various vision tasks, \emph{e.g.}, image classification, object detection, human-object interaction detection and human body shape recovery. Codes will be released upon acceptance.

arxiv情報

著者 Bonan Li,Yinhan Hu,Xuecheng Nie,Congying Han,Xiangjian Jiang,Tiande Guo,Luoqi Liu
発行日 2022-08-04 13:24:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク