Deformable Mixer Transformer with Gating for Multi-Task Learning of Dense Prediction

要約

CNN と Transformer にはそれぞれ独自の利点があり、どちらもマルチタスク学習 (MTL) の高密度予測に広く使用されています。
MTL に関する現在の研究のほとんどは、CNN または Transformer のみに依存しています。
この研究では、変形可能な CNN とクエリベースの Transformer の両方の利点を組み合わせ、密な予測のマルチタスク学習のための共有ゲートを備えた新しい MTL モデルを紹介します。
この組み合わせは、強力かつ柔軟なタスク固有の学習と、従来の MTL 手法よりもコストが低く、複雑さが少なく、パラメータが小さいという利点があるため、シンプルで効率的なソリューションを提供できる可能性があります。
MTL 用の統合ネットワークに畳み込みとアテンション メカニズムを組み込んだ、シンプルで効果的な最新のエンコーダ/デコーダ アーキテクチャである、変形可能なミキサ Transformer with gating (DeMTG) を紹介します。
各ブロックの利点を活用するように絶妙に設計されており、ローカルおよびグローバルな観点からすべてのタスクに変形可能かつ包括的な機能を提供します。
まず、変形可能なミキサー エンコーダーには 2 種類のオペレーターが含まれています。1 つは、異なるチャンネル間の通信を可能にするために利用されるチャンネル認識ミキシング オペレーター、もう 1 つは、より有益な空間位置を効率的にサンプリングするために適用される変形可能な畳み込みを備えた空間認識変形可能なオペレーターです。
2 番目に、タスク認識ゲート変換デコーダを使用してタスク固有の予測を実行します。セルフ アテンションと統合されたタスク インタラクション ブロックがタスク インタラクション機能をキャプチャするために適用され、ゲーティング アテンションと統合されたタスク クエリ ブロックが選択のために利用されます。
対応するタスク固有の機能。
さらに、実験結果は、提案された DeMTG が使用する GFLOP が少なく、3 つの高密度予測データセットのさまざまなメトリクスにおいて、現在の Transformer ベースおよび CNN ベースの競合モデルよりも大幅に優れていることを示しています。
コードとモデルは https://github.com/yangyangxu0/DeMTG で入手できます。

要約(オリジナル)

CNNs and Transformers have their own advantages and both have been widely used for dense prediction in multi-task learning (MTL). Most of the current studies on MTL solely rely on CNN or Transformer. In this work, we present a novel MTL model by combining both merits of deformable CNN and query-based Transformer with shared gating for multi-task learning of dense prediction. This combination may offer a simple and efficient solution owing to its powerful and flexible task-specific learning and advantages of lower cost, less complexity and smaller parameters than the traditional MTL methods. We introduce deformable mixer Transformer with gating (DeMTG), a simple and effective encoder-decoder architecture up-to-date that incorporates the convolution and attention mechanism in a unified network for MTL. It is exquisitely designed to use advantages of each block, and provide deformable and comprehensive features for all tasks from local and global perspective. First, the deformable mixer encoder contains two types of operators: the channel-aware mixing operator leveraged to allow communication among different channels, and the spatial-aware deformable operator with deformable convolution applied to efficiently sample more informative spatial locations. Second, the task-aware gating transformer decoder is used to perform the task-specific predictions, in which task interaction block integrated with self-attention is applied to capture task interaction features, and the task query block integrated with gating attention is leveraged to select corresponding task-specific features. Further, the experiment results demonstrate that the proposed DeMTG uses fewer GFLOPs and significantly outperforms current Transformer-based and CNN-based competitive models on a variety of metrics on three dense prediction datasets. Our code and models are available at https://github.com/yangyangxu0/DeMTG.

arxiv情報

著者 Yangyang Xu,Yibo Yang,Bernard Ghanemm,Lefei Zhang
発行日 2023-08-10 17:37:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク