RSIR Transformer: Hierarchical Vision Transformer using Random Sampling Windows and Important Region Windows

要約

タイトル:RSIR Transformer:ランダムサンプリングウィンドウと重要領域ウィンドウを利用した階層的なビジョンTransformer

要約:

– 最近、Transformerは、様々なビジョンタスクで有望な性能を発揮しています。
– しかし、大域的な自己注意の高いコストは、高解像度のビジョンタスクにおいてもTransfomerにとって難しい課題のままです。
– ローカル自己注意は、スループット向上のために限られた領域で注意計算を実行し、受容野が小さいためにコンテキストのモデリングが不十分となります。
– この論文では、階層的ビジョンTransformerのグローバルモデリング能力を向上させるために2つの新しいアテンションモジュールを導入しています。
– ランダムサンプリングウィンドウ(RS-Win)と重要領域ウィンドウ(IR-Win)です。
– 具体的には、RS-Winは一様分布に従ってランダムな画像パッチをサンプリングしてウィンドウを構成し、すなわち、RS-Winのパッチは画像内の任意の位置から来ることができます。
– IR-Winは、アテンションマップ内の画像パッチの重みに従ってウィンドウを構成します。
– 特に、RS-Winは、より早い高解像度ステージでもモデル全体でグローバル情報をキャプチャすることができます。
– IR-Winは、自己注意モジュールが画像の重要領域に注目してより多くの情報的な特徴を捕捉することを可能にします。
– これらの設計を組み込んで、RSIR-Win Transformerは一般的なビジョンタスクにおいて競争力のある性能を発揮します。

要約(オリジナル)

Recently, Transformers have shown promising performance in various vision tasks. However, the high costs of global self-attention remain challenging for Transformers, especially for high-resolution vision tasks. Local self-attention runs attention computation within a limited region for the sake of efficiency, resulting in insufficient context modeling as their receptive fields are small. In this work, we introduce two new attention modules to enhance the global modeling capability of the hierarchical vision transformer, namely, random sampling windows (RS-Win) and important region windows (IR-Win). Specifically, RS-Win sample random image patches to compose the window, following a uniform distribution, i.e., the patches in RS-Win can come from any position in the image. IR-Win composes the window according to the weights of the image patches in the attention map. Notably, RS-Win is able to capture global information throughout the entire model, even in earlier, high-resolution stages. IR-Win enables the self-attention module to focus on important regions of the image and capture more informative features. Incorporated with these designs, RSIR-Win Transformer demonstrates competitive performance on common vision tasks.

arxiv情報

著者 Zhemin Zhang,Xun Gong
発行日 2023-04-13 04:03:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV パーマリンク