要約
マルチタスク学習(MTL)パラダイムは、2つ以上のタスクを共同で学習することに焦点を当てており、モデルの一般化可能性、パフォーマンス、およびトレーニング/推論メモリフットプリントの大幅な改善を目指しています。
前述の利点は、視覚関連の{\bf高密度}予測タスクの共同トレーニングの場合に不可欠になります。
この作業では、セマンティックセグメンテーションと深度推定という2つの高密度タスクのMTL問題に取り組み、クロスチャネルアテンションモジュール({CCAM})と呼ばれる新しいアテンションモジュールを提示します。これにより、各チャネル間での効果的な機能共有が容易になります。
2つのタスクは、トレーニング可能なパラメーターの増加を無視して、相互のパフォーマンスの向上につながります。
次に、真の共生精神で、{AffineMix}と呼ばれる予測深度を使用したセマンティックセグメンテーションタスクの新しいデータ拡張と、{ColorAug}と呼ばれる予測セマンティクスを使用した単純な深度拡張を作成します。
最後に、Cityscapesデータセットで提案された方法のパフォーマンスの向上を検証します。これは、深度とセマンティックセグメンテーションに基づく半教師ありジョイントモデルの最先端の結果を達成するのに役立ちます。
要約(オリジナル)
Multi-task learning (MTL) paradigm focuses on jointly learning two or more tasks, aiming for significant improvement w.r.t model’s generalizability, performance, and training/inference memory footprint. The aforementioned benefits become ever so indispensable in the case of joint training for vision-related {\bf dense} prediction tasks. In this work, we tackle the MTL problem of two dense tasks, \ie, semantic segmentation and depth estimation, and present a novel attention module called Cross-Channel Attention Module ({CCAM}), which facilitates effective feature sharing along each channel between the two tasks, leading to mutual performance gain with a negligible increase in trainable parameters. In a true symbiotic spirit, we then formulate a novel data augmentation for the semantic segmentation task using predicted depth called {AffineMix}, and a simple depth augmentation using predicted semantics called {ColorAug}. Finally, we validate the performance gain of the proposed method on the Cityscapes dataset, which helps us achieve state-of-the-art results for a semi-supervised joint model based on depth and semantic segmentation.
arxiv情報
著者 | Nitin Bansal,Pan Ji,Junsong Yuan,Yi Xu |
発行日 | 2022-06-21 17:40:55+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google