GPViT: A High Resolution Non-Hierarchical Vision Transformer with Group Propagation

要約

タイトル:GPViT:グループ伝播を使用した非階層的高解像度ビジョントランスフォーマー

要約:
– GPViTは、ビジュアル認識を目的とした、新しい非階層的なトランスフォーマーモデルである。
– 高解像度のフィーチャ(トークン)は、検出やセグメンテーションなど、詳細な情報を必要とするタスクに最適であるが、これらのフィーチャ間でグローバルな情報を交換する方法は、自己注意がスケールする方法のため、メモリと計算のコストが高くなる。
– 我々は高度に効率的な代替案であるグループ伝播ブロック(GPブロック)を提供して、グローバルな情報を交換する。
– 各GPブロックでは、一定数の学習可能なグループトークンによって最初にフィーチャをグループ化し、次にグループフィーチャ間でグルーバルな情報を交換するグループ伝播を実行し、最後にトランスフォーマーデコーダを介して更新されたグループフィーチャのグローバル情報を元の画像フィーチャに戻す。
– GPViTは、画像分類、セマンティックセグメンテーション、物体検出、インスタンスセグメンテーションなど、様々なビジュアル認識タスクで評価されており、以前の研究に比べて、特に高解像度の出力を必要とするタスクで有意な性能向上が確認されている。例えば、GPViT-L3は、ADE20KセマンティックセグメンテーションでSwin Transformer-Bよりも2.0 mIoU高く、パラメータが半分以下である。プロジェクトページ:chenhongyiyang.com/projects/GPViT/GPViT

要約(オリジナル)

We present the Group Propagation Vision Transformer (GPViT): a novel nonhierarchical (i.e. non-pyramidal) transformer model designed for general visual recognition with high-resolution features. High-resolution features (or tokens) are a natural fit for tasks that involve perceiving fine-grained details such as detection and segmentation, but exchanging global information between these features is expensive in memory and computation because of the way self-attention scales. We provide a highly efficient alternative Group Propagation Block (GP Block) to exchange global information. In each GP Block, features are first grouped together by a fixed number of learnable group tokens; we then perform Group Propagation where global information is exchanged between the grouped features; finally, global information in the updated grouped features is returned back to the image features through a transformer decoder. We evaluate GPViT on a variety of visual recognition tasks including image classification, semantic segmentation, object detection, and instance segmentation. Our method achieves significant performance gains over previous works across all tasks, especially on tasks that require highresolution outputs, for example, our GPViT-L3 outperforms Swin Transformer-B by 2.0 mIoU on ADE20K semantic segmentation with only half as many parameters. Project page: chenhongyiyang.com/projects/GPViT/GPViT

arxiv情報

著者 Chenhongyi Yang,Jiarui Xu,Shalini De Mello,Elliot J. Crowley,Xiaolong Wang
発行日 2023-04-25 09:08:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV, cs.LG パーマリンク