要約
層の相互作用を強化することでディープニューラルネットワークの表現力を高めることができること、一方、自己注意はクエリで活性化した情報を取り出すことで相互依存性を学習することに優れていることを示す証拠が増えてきている。このような動機から、我々はマルチヘッドリカレントレイヤーアテンション(MRLA)と呼ばれる、現在の層のクエリー表現を前の全ての層に送り、異なるレベルの受容野からクエリー関連情報を取り出す層間注意機構を考案する。また、二次的な計算コストを削減するために、MRLAの軽量化版も提案する。提案するレイヤーアテンション機構は、CNNやビジョン変換器などの多くの最先端ビジョンネットワークの表現力を強化することができる。その有効性は画像分類、物体検出、インスタンス分割などのタスクで広範囲に評価されており、一貫して改善が見られる。例えば、我々のMRLAはResNet-50において、0.16Mパラメータと0.07B FLOPsを導入するだけで、トップ1の精度を1.6%向上させることができます。驚くべきことに、高密度予測タスクにおいて、3-4%のボックスAPとマスクAPの性能を大きく向上させることができます。我々のコードは https://github.com/joyfang1106/MRLA で公開されています。
要約(オリジナル)
More and more evidence has shown that strengthening layer interactions can enhance the representation power of a deep neural network, while self-attention excels at learning interdependencies by retrieving query-activated information. Motivated by this, we devise a cross-layer attention mechanism, called multi-head recurrent layer attention (MRLA), that sends a query representation of the current layer to all previous layers to retrieve query-related information from different levels of receptive fields. A light-weighted version of MRLA is also proposed to reduce the quadratic computation cost. The proposed layer attention mechanism can enrich the representation power of many state-of-the-art vision networks, including CNNs and vision transformers. Its effectiveness has been extensively evaluated in image classification, object detection and instance segmentation tasks, where improvements can be consistently observed. For example, our MRLA can improve 1.6\% Top-1 accuracy on ResNet-50, while only introducing 0.16M parameters and 0.07B FLOPs. Surprisingly, it can boost the performances by a large margin of 3-4\% box AP and mask AP in dense prediction tasks. Our code is available at https://github.com/joyfang1106/MRLA.
arxiv情報
著者 | Yanwen Fang,Yuxi Cai,Jintai Chen,Jingyu Zhao,Guangjian Tian,Guodong Li |
発行日 | 2023-02-08 10:50:01+00:00 |
arxivサイト | arxiv_id(pdf) |