要約
密な予測のためのマルチタスク学習は、すべてのタスクの広範な注釈の必要性によって制限されていますが、最近の作品は部分的なタスクラベルを使用したトレーニングを検討しています。
拡散モデルの一般化パワーを活用すると、部分学習セットアップをゼロショット設定に拡張し、複数の合成データセットでマルチタスクモデルをトレーニングします。各タスクのサブセットのみにラベル付けされます。
私たちの方法であるstablemtlは、潜在的な回帰のために画像ジェネレーターを再利用します。
タスクエンコード、タスクごとのコンディショニング、およびテーラードトレーニングスキームを使用して、除去フレームワークを適応させます。
慎重なバランスを必要とするタスクごとの損失の代わりに、統一された潜在的な損失が採用され、より多くのタスクにシームレスなスケーリングが可能になります。
タスク間の相乗効果を促進するために、N-to-Nタスクの相互作用を効率的な1対N注意に変換するタスクアテンションメカニズムを備えたマルチストリームモデルを導入し、効果的なクロスタスク共有を促進します。
StableMTLは、8つのベンチマークにわたる7つのタスクのベースラインを上回ります。
要約(オリジナル)
Multi-task learning for dense prediction is limited by the need for extensive annotation for every task, though recent works have explored training with partial task labels. Leveraging the generalization power of diffusion models, we extend the partial learning setup to a zero-shot setting, training a multi-task model on multiple synthetic datasets, each labeled for only a subset of tasks. Our method, StableMTL, repurposes image generators for latent regression. Adapting a denoising framework with task encoding, per-task conditioning and a tailored training scheme. Instead of per-task losses requiring careful balancing, a unified latent loss is adopted, enabling seamless scaling to more tasks. To encourage inter-task synergy, we introduce a multi-stream model with a task-attention mechanism that converts N-to-N task interactions into efficient 1-to-N attention, promoting effective cross-task sharing. StableMTL outperforms baselines on 7 tasks across 8 benchmarks.
arxiv情報
著者 | Anh-Quan Cao,Ivan Lopes,Raoul de Charette |
発行日 | 2025-06-09 17:59:59+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google