要約
高忠実度の画像合成を超えて、拡散モデルは最近、密な視覚認識タスクにおいて有望な結果を示しています。
しかし、既存の研究のほとんどは、拡散モデルを知覚タスクのスタンドアロン コンポーネントとして扱い、既製のデータ拡張のためだけに、または単なる特徴抽出器として使用しています。
これらの孤立した、したがって次善の取り組みとは対照的に、私たちは、独自の機能を通じて、マルチモーダルなデータ生成と緻密な視覚認識の両方を同時に処理できる、統合された多用途の拡散ベースのフレームワークである Diff-2-in-1 を導入します。
拡散ノイズ除去プロセスの利用。
このフレームワーク内で、ノイズ除去ネットワークを利用して元のトレーニング セットの分布を反映するマルチモーダル データを作成することにより、マルチモーダル生成による識別視覚知覚をさらに強化します。
重要なのは、Diff-2-in-1 は、新しい自己改善学習メカニズムを活用することで、作成された多様で忠実なデータの利用を最適化することです。
包括的な実験評価により、フレームワークの有効性が検証され、さまざまな識別バックボーンにわたる一貫したパフォーマンスの向上と、現実性と有用性の両方を特徴とする高品質のマルチモーダル データ生成が実証されています。
要約(オリジナル)
Beyond high-fidelity image synthesis, diffusion models have recently exhibited promising results in dense visual perception tasks. However, most existing work treats diffusion models as a standalone component for perception tasks, employing them either solely for off-the-shelf data augmentation or as mere feature extractors. In contrast to these isolated and thus sub-optimal efforts, we introduce a unified, versatile, diffusion-based framework, Diff-2-in-1, that can simultaneously handle both multi-modal data generation and dense visual perception, through a unique exploitation of the diffusion-denoising process. Within this framework, we further enhance discriminative visual perception via multi-modal generation, by utilizing the denoising network to create multi-modal data that mirror the distribution of the original training set. Importantly, Diff-2-in-1 optimizes the utilization of the created diverse and faithful data by leveraging a novel self-improving learning mechanism. Comprehensive experimental evaluations validate the effectiveness of our framework, showcasing consistent performance improvements across various discriminative backbones and high-quality multi-modal data generation characterized by both realism and usefulness.
arxiv情報
著者 | Shuhong Zheng,Zhipeng Bao,Ruoyu Zhao,Martial Hebert,Yu-Xiong Wang |
発行日 | 2024-11-07 18:59:53+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google