Lotus: Diffusion-based Visual Foundation Model for High-quality Dense Prediction

要約

事前トレーニングされたテキストから画像への拡散モデルの視覚事前分布を活用することで、高密度予測タスクにおけるゼロショット汎化を強化する有望なソリューションが提供されます。
ただし、既存の方法では元の拡散定式化が無批判に使用されることが多く、密な予測と画像生成の基本的な違いにより最適ではない可能性があります。
この論文では、品質と効率の両方に焦点を当てて、高密度予測のための拡散定式化の体系的な分析を提供します。
そして、ノイズの予測を学習する画像生成の元のパラメータ化タイプは、密な予測には有害であることがわかりました。
複数ステップのノイズ除去/ノイズ除去拡散プロセスも不要であり、最適化が困難です。
これらの洞察に基づいて、高密度予測のためのシンプルかつ効果的な適応プロトコルを備えた拡散ベースの視覚基盤モデルである Lotus を紹介します。
具体的には、Lotus はノイズではなく注釈を直接予測するようにトレーニングされており、それによって有害な差異を回避します。
また、拡散プロセスを単一ステップの手順に再定式化し、最適化を簡素化し、推論速度を大幅に向上させます。
さらに、より正確で詳細な予測を実現する、ディテール プリザーバーと呼ばれる新しい調整戦略を導入します。
Lotus は、トレーニング データやモデルの容量をスケールアップすることなく、ゼロショット深度およびさまざまなデータセットにわたる正規推定での SoTA パフォーマンスを実現します。
また、効率も大幅に向上し、既存のほとんどの拡散ベースの方法よりも数百倍高速になります。

要約(オリジナル)

Leveraging the visual priors of pre-trained text-to-image diffusion models offers a promising solution to enhance zero-shot generalization in dense prediction tasks. However, existing methods often uncritically use the original diffusion formulation, which may not be optimal due to the fundamental differences between dense prediction and image generation. In this paper, we provide a systemic analysis of the diffusion formulation for the dense prediction, focusing on both quality and efficiency. And we find that the original parameterization type for image generation, which learns to predict noise, is harmful for dense prediction; the multi-step noising/denoising diffusion process is also unnecessary and challenging to optimize. Based on these insights, we introduce Lotus, a diffusion-based visual foundation model with a simple yet effective adaptation protocol for dense prediction. Specifically, Lotus is trained to directly predict annotations instead of noise, thereby avoiding harmful variance. We also reformulate the diffusion process into a single-step procedure, simplifying optimization and significantly boosting inference speed. Additionally, we introduce a novel tuning strategy called detail preserver, which achieves more accurate and fine-grained predictions. Without scaling up the training data or model capacity, Lotus achieves SoTA performance in zero-shot depth and normal estimation across various datasets. It also significantly enhances efficiency, being hundreds of times faster than most existing diffusion-based methods.

arxiv情報

著者 Jing He,Haodong Li,Wei Yin,Yixun Liang,Leheng Li,Kaiqiang Zhou,Hongbo Liu,Bingbing Liu,Ying-Cong Chen
発行日 2024-09-26 17:58:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク