要約
【タイトル】Multi-Task Learning with Multi-Query Transformer for Dense Prediction
【要約】
– マルチタスク密度予測の研究には、マルチモーダル蒸留を複数の段階で行う、または各タスクに対してタスク関連コンテキストを探すなど、複雑なパイプラインが開発されてきた。
– これらの方法の共通点は、各タスクの相互効果を最大化することである。
– 最近のクエリベースのTransformerに着想を得て、複数のクエリを備えた簡単なパイプラインMulti-Query Transformer(MQTransformer)を提案する。
– MQTransformerは、複数のタスクからの複数のクエリを備えているため、複数のタスク間の推論を促進し、クロスタスクインタラクションパイプラインを簡素化する。
– 異なるタスク間の密なピクセルコンテキストをモデリングする代わりに、タスク固有のプロキシを探し、各クエリがタスク関連のコンテキストをエンコードすることで、クロスタスク推論を実行する。
– MQTransformerは、共有エンコーダ、クロスタスククエリアテンションモジュール、共有デコーダの3つの主要なコンポーネントで構成される。
– まず、各タスクをタスク関連のクエリでモデル化する。次に、特徴エクストラクタによって出力されたタスク固有の特徴とタスク関連のクエリを共有エンコーダに送信し、タスク固有の特徴からタスク関連クエリをエンコードする。
– 次に、クロスタスククエリアテンションモジュールを設計し、複数のタスク関連クエリ間の依存関係を考慮することで、モジュールがクエリレベルの相互作用に焦点を当てることができる。
– 最後に、共有デコーダを使用して、異なるタスクからの推論済みクエリ特徴とともに、画像特徴を徐々に改良する。
– 2つの密な予測データセット(NYUD-v2およびPASCAL-Context)に対する広範な実験結果は、提案手法が有効なアプローチであり、最新の結果を達成していることを示している。コードおよびモデルはhttps://github.com/yangyangxu0/MQTransformerで入手可能。
要約(オリジナル)
Previous multi-task dense prediction studies developed complex pipelines such as multi-modal distillations in multiple stages or searching for task relational contexts for each task. The core insight beyond these methods is to maximize the mutual effects of each task. Inspired by the recent query-based Transformers, we propose a simple pipeline named Multi-Query Transformer (MQTransformer) that is equipped with multiple queries from different tasks to facilitate the reasoning among multiple tasks and simplify the cross-task interaction pipeline. Instead of modeling the dense per-pixel context among different tasks, we seek a task-specific proxy to perform cross-task reasoning via multiple queries where each query encodes the task-related context. The MQTransformer is composed of three key components: shared encoder, cross-task query attention module and shared decoder. We first model each task with a task-relevant query. Then both the task-specific feature output by the feature extractor and the task-relevant query are fed into the shared encoder, thus encoding the task-relevant query from the task-specific feature. Secondly, we design a cross-task query attention module to reason the dependencies among multiple task-relevant queries; this enables the module to only focus on the query-level interaction. Finally, we use a shared decoder to gradually refine the image features with the reasoned query features from different tasks. Extensive experiment results on two dense prediction datasets (NYUD-v2 and PASCAL-Context) show that the proposed method is an effective approach and achieves state-of-the-art results. Code and models are available at https://github.com/yangyangxu0/MQTransformer.
arxiv情報
著者 | Yangyang Xu,Xiangtai Li,Haobo Yuan,Yibo Yang,Lefei Zhang |
発行日 | 2023-04-07 17:58:55+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI