要約
視覚的情景理解のためのマルチタスク学習(MTL)では、複数のタスク間で有用な情報を最小限の干渉で伝達することが極めて重要である。本論文では、タスクのマルチスケール特徴量に注意機構を適用することで、情報量の多い特徴量を効率的に転送する新しいアーキテクチャを提案する。スケールとタスクの観点から考えられる全ての特徴量に対して注意モジュールを直接適用することは高い複雑性を必要とするため、タスクとスケールに対して注意モジュールを逐次的に適用することを提案する。まず、同じスケールの複数のタスク特徴間の関連情報の交換を促進するために、クロスタスク注意モジュール(CTAM)が適用される。次に、クロススケールアテンションモジュール(CSAM)が、同一タスクの異なる解像度の特徴量マップから有用な情報を集約する。また、特徴抽出ネットワーク内の自己注意モジュールにより、長距離依存性の捕捉を試みている。広範な実験により、我々の手法はNYUD-v2およびPASCAL-Contextデータセットにおいて、最先端の性能を達成することが実証された。
要約(オリジナル)
In multi-task learning (MTL) for visual scene understanding, it is crucial to transfer useful information between multiple tasks with minimal interferences. In this paper, we propose a novel architecture that effectively transfers informative features by applying the attention mechanism to the multi-scale features of the tasks. Since applying the attention module directly to all possible features in terms of scale and task requires a high complexity, we propose to apply the attention module sequentially for the task and scale. The cross-task attention module (CTAM) is first applied to facilitate the exchange of relevant information between the multiple task features of the same scale. The cross-scale attention module (CSAM) then aggregates useful information from feature maps at different resolutions in the same task. Also, we attempt to capture long range dependencies through the self-attention module in the feature extraction network. Extensive experiments demonstrate that our method achieves state-of-the-art performance on the NYUD-v2 and PASCAL-Context dataset.
arxiv情報
著者 | Sunkyung Kim,Hyesong Choi,Dongbo Min |
発行日 | 2022-09-06 14:17:33+00:00 |
arxivサイト | arxiv_id(pdf) |