MTMamba++: Enhancing Multi-Task Dense Scene Understanding via Mamba-Based Decoders

要約

複数の高密度予測タスクのモデルをトレーニングするマルチタスク高密度シーン理解には、幅広い応用シナリオがあります。
マルチタスクの高密度予測には、長距離の依存関係を把握し、タスク間の相互作用を強化することが重要です。
この論文では、Mamba ベースのデコーダを特徴とするマルチタスクシーン理解のための新しいアーキテクチャである MTMamba++ を提案します。
これには、セルフタスク Mamba (STM) ブロックとクロスタスク Mamba (CTM) ブロックの 2 種類のコア ブロックが含まれています。
STM は状態空間モデルを活用して長距離の依存関係を処理しますが、CTM はタスク間の相互作用を明示的にモデル化して、タスク間の情報交換を容易にします。
我々は、それぞれ機能と意味の観点からクロスタスク相互作用を強化するために、F-CTM と S-CTM という 2 種類の CTM ブロックを設計します。
NYUDv2、PASCAL-Context、および Cityscapes データセットの実験では、CNN ベースおよび Transformer ベースの方法よりも MTMamba++ の優れたパフォーマンスが実証されています。
コードは https://github.com/EnVision-Research/MTMamba で入手できます。

要約(オリジナル)

Multi-task dense scene understanding, which trains a model for multiple dense prediction tasks, has a wide range of application scenarios. Capturing long-range dependency and enhancing cross-task interactions are crucial to multi-task dense prediction. In this paper, we propose MTMamba++, a novel architecture for multi-task scene understanding featuring with a Mamba-based decoder. It contains two types of core blocks: self-task Mamba (STM) block and cross-task Mamba (CTM) block. STM handles long-range dependency by leveraging state-space models, while CTM explicitly models task interactions to facilitate information exchange across tasks. We design two types of CTM block, namely F-CTM and S-CTM, to enhance cross-task interaction from feature and semantic perspectives, respectively. Experiments on NYUDv2, PASCAL-Context, and Cityscapes datasets demonstrate the superior performance of MTMamba++ over CNN-based and Transformer-based methods. The code is available at https://github.com/EnVision-Research/MTMamba.

arxiv情報

著者 Baijiong Lin,Weisen Jiang,Pengguang Chen,Shu Liu,Ying-Cong Chen
発行日 2024-08-27 14:36:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク