DiffusionMTL: Learning Multi-Task Denoising Diffusion Model from Partially Annotated Data

要約

最近、部分的に注釈が付けられたデータから複数の高密度シーン理解タスクを学習するという実際的な問題への関心が高まっています。この場合、各トレーニング サンプルはタスクのサブセットに対してのみラベル付けされています。
最先端の手法から観察できるように、トレーニングでタスク ラベルが欠落していると、低品質でノイズの多い予測が発生します。
この問題に取り組むために、部分的にラベル付けされたマルチタスクの高密度予測をピクセルレベルのノイズ除去問題として再定式化し、DiffusionMTL と呼ばれる新しいマルチタスクのノイズ除去拡散フレームワークを提案します。
共同拡散およびノイズ除去パラダイムを設計して、タスク予測または特徴マップにおける潜在的なノイズの多い分布をモデル化し、さまざまなタスクに対して修正された出力を生成します。
ノイズ除去におけるマルチタスクの一貫性を活用するために、マルチタスク コンディショニング戦略をさらに導入します。これは、タスクの補完的な性質を暗黙的に利用して、ラベルのないタスクの学習を支援し、さまざまなタスクのノイズ除去パフォーマンスの向上につながります。
広範な定量的および定性的実験により、提案されたマルチタスク ノイズ除去拡散モデルがマルチタスク予測マップを大幅に改善し、2 つの異なる部分ラベル評価の下で、3 つの困難なマルチタスク ベンチマークで最先端の手法を上回るパフォーマンスを発揮できることが実証されました。
設定。
コードは https://prismformore.github.io/diffusionmtl/ で入手できます。

要約(オリジナル)

Recently, there has been an increased interest in the practical problem of learning multiple dense scene understanding tasks from partially annotated data, where each training sample is only labeled for a subset of the tasks. The missing of task labels in training leads to low-quality and noisy predictions, as can be observed from state-of-the-art methods. To tackle this issue, we reformulate the partially-labeled multi-task dense prediction as a pixel-level denoising problem, and propose a novel multi-task denoising diffusion framework coined as DiffusionMTL. It designs a joint diffusion and denoising paradigm to model a potential noisy distribution in the task prediction or feature maps and generate rectified outputs for different tasks. To exploit multi-task consistency in denoising, we further introduce a Multi-Task Conditioning strategy, which can implicitly utilize the complementary nature of the tasks to help learn the unlabeled tasks, leading to an improvement in the denoising performance of the different tasks. Extensive quantitative and qualitative experiments demonstrate that the proposed multi-task denoising diffusion model can significantly improve multi-task prediction maps, and outperform the state-of-the-art methods on three challenging multi-task benchmarks, under two different partial-labeling evaluation settings. The code is available at https://prismformore.github.io/diffusionmtl/.

arxiv情報

著者 Hanrong Ye,Dan Xu
発行日 2024-03-22 17:59:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク