DeMT: Deformable Mixer Transformer for Multi-Task Learning of Dense Prediction

要約

畳み込みニューラルネットワーク(CNN)とTransformerにはそれぞれ利点があり、どちらもマルチタスク学習(MTL)における高密度予測に広く用いられてきた。現在のMTLに関する研究のほとんどは、CNNまたはTransformerにのみ依存している。本研究では、変形可能なCNNとクエリに基づくTransformerの両方の利点を組み合わせて、マルチタスク学習による高密度予測を行う新しいMTLモデルを提案する。DeMTと名付けられた我々の手法は、シンプルで効果的なエンコーダ・デコーダアーキテクチャ(すなわち、変形可能なミキサエンコーダとタスクを考慮したトランスフォーマーデコーダ)に基づいている。まず、デフォーマブルミキサーエンコーダには、異なるチャンネル間の通信を可能にするチャンネル認識混合演算子($i.e.$効率的なチャンネル位置混合)と、より情報量の多い空間位置(すなわち、変形特徴)を効率的に抽出するために変形畳み込みを適用した空間認識変形演算子が含まれている。次に、タスク対応変換デコーダは、タスクインタラクションブロックとタスククエリーブロックから構成される。前者は、自己アテンションによりタスクのインタラクション特徴を捉えるために適用される。後者は、変形特徴量とタスクインタラクション特徴量を活用し、対応するタスク予測のために、クエリに基づくTransformerを介して、対応するタスク固有の特徴量を生成する。NYUD-v2 と PASCAL-Context という二つの高密度画像予測データセットに対する広範な実験により、我々のモデルがより少ない GFLOPs で、現在の Transformer と CNN ベースの競合モデルを様々な指標で著しく上回ることが実証された。コードは https://github.com/yangyangxu0/DeMT で公開されています。

要約(オリジナル)

Convolution neural networks (CNNs) and Transformers have their own advantages and both have been widely used for dense prediction in multi-task learning (MTL). Most of the current studies on MTL solely rely on CNN or Transformer. In this work, we present a novel MTL model by combining both merits of deformable CNN and query-based Transformer for multi-task learning of dense prediction. Our method, named DeMT, is based on a simple and effective encoder-decoder architecture (i.e., deformable mixer encoder and task-aware transformer decoder). First, the deformable mixer encoder contains two types of operators: the channel-aware mixing operator leveraged to allow communication among different channels ($i.e.,$ efficient channel location mixing), and the spatial-aware deformable operator with deformable convolution applied to efficiently sample more informative spatial locations (i.e., deformed features). Second, the task-aware transformer decoder consists of the task interaction block and task query block. The former is applied to capture task interaction features via self-attention. The latter leverages the deformed features and task-interacted features to generate the corresponding task-specific feature through a query-based Transformer for corresponding task predictions. Extensive experiments on two dense image prediction datasets, NYUD-v2 and PASCAL-Context, demonstrate that our model uses fewer GFLOPs and significantly outperforms current Transformer- and CNN-based competitive models on a variety of metrics. The code are available at https://github.com/yangyangxu0/DeMT .

arxiv情報

著者 Yangyang Xu ang Yibo Yang,Lefei Zhang
発行日 2023-01-09 16:00:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CV パーマリンク