要約
画像生成の成功に伴い、ピクセル生成が統一された知覚インターフェイスを提供するため、生成的拡散モデルが識別タスクにますます採用されています。
ただし、差別的な目的のために生成的除去プロセスを直接再利用すると、以前に扱われた重要なギャップが明らかになります。
生成モデルは、最終的な分布がもっともらしい場合の中間サンプリングエラーに耐えますが、識別タスクは画像セグメンテーションを参照するなどのマルチモーダルタスクに挑戦することで証明されるように、全体を通して厳密な精度を必要とします。
このギャップに動機付けられ、生成的拡散プロセスと知覚タスクの間のアライメントを分析および強化し、除去中に知覚品質がどのように進化するかに焦点を当てます。
(1)以前の除去ステップは、知覚品質に不釣り合いに貢献し、さまざまなタイムステップの貢献を反映したテーラード学習目標を提案するよう促します。
(2)その後の除去ステップは、予期しない知覚の劣化を示し、拡散テールデータ増強によって対処されたトレーニングを非難する分布シフトに対する感受性を強調します。
(3)生成プロセスは、マルチラウンド相互作用の補正プロンプトに適応可能な制御可能なユーザーインターフェイスとして機能するインタラクティブ性を独自に有効にします。
当社の洞察は、アーキテクチャの変化なしに拡散ベースの知覚モデルを大幅に改善し、深度推定で最先端のパフォーマンスを達成し、画像セグメンテーションを参照し、一般主義者の知覚タスクを参照しています。
https://github.com/ziqipang/addpで入手可能なコード。
要約(オリジナル)
With the success of image generation, generative diffusion models are increasingly adopted for discriminative tasks, as pixel generation provides a unified perception interface. However, directly repurposing the generative denoising process for discriminative objectives reveals critical gaps rarely addressed previously. Generative models tolerate intermediate sampling errors if the final distribution remains plausible, but discriminative tasks require rigorous accuracy throughout, as evidenced in challenging multi-modal tasks like referring image segmentation. Motivated by this gap, we analyze and enhance alignment between generative diffusion processes and perception tasks, focusing on how perception quality evolves during denoising. We find: (1) earlier denoising steps contribute disproportionately to perception quality, prompting us to propose tailored learning objectives reflecting varying timestep contributions; (2) later denoising steps show unexpected perception degradation, highlighting sensitivity to training-denoising distribution shifts, addressed by our diffusion-tailored data augmentation; and (3) generative processes uniquely enable interactivity, serving as controllable user interfaces adaptable to correctional prompts in multi-round interactions. Our insights significantly improve diffusion-based perception models without architectural changes, achieving state-of-the-art performance on depth estimation, referring image segmentation, and generalist perception tasks. Code available at https://github.com/ziqipang/ADDP.
arxiv情報
著者 | Ziqi Pang,Xin Xu,Yu-Xiong Wang |
発行日 | 2025-04-15 17:59:54+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google