Fine-Tuning Image-Conditional Diffusion Models is Easier than You Think

要約

最近の研究では、画像条件付き画像生成タスクとして深度推定をキャストすることにより、大規模な拡散モデルを高精度の単眼深度推定器として再利用できることが示されました。
提案されたモデルは最先端の結果を達成しましたが、マルチステップ推論による高い計算要求により、多くのシナリオでの使用が制限されました。
この論文では、認識されている非効率性は、これまで気づかれていなかった推論パイプラインの欠陥によって引き起こされたことを示します。
固定モデルは、以前に報告された最高の構成と同等のパフォーマンスを示しながら、200$\times$ 以上高速です。
下流のタスクのパフォーマンスを最適化するために、タスク固有の損失を含むシングルステップ モデルに基づいてエンドツーエンドの微調整を実行し、共通ゼロに関する他のすべての拡散ベースの深度および法線推定モデルを上回る決定論的モデルを取得します。
-ショットのベンチマーク。
驚くべきことに、この微調整プロトコルは安定拡散にも直接作用し、現在の最先端の拡散ベースの深度および法線推定モデルと同等のパフォーマンスを達成することがわかり、以前の研究から引き出された結論の一部に疑問を投げかけています。

要約(オリジナル)

Recent work showed that large diffusion models can be reused as highly precise monocular depth estimators by casting depth estimation as an image-conditional image generation task. While the proposed model achieved state-of-the-art results, high computational demands due to multi-step inference limited its use in many scenarios. In this paper, we show that the perceived inefficiency was caused by a flaw in the inference pipeline that has so far gone unnoticed. The fixed model performs comparably to the best previously reported configuration while being more than 200$\times$ faster. To optimize for downstream task performance, we perform end-to-end fine-tuning on top of the single-step model with task-specific losses and get a deterministic model that outperforms all other diffusion-based depth and normal estimation models on common zero-shot benchmarks. We surprisingly find that this fine-tuning protocol also works directly on Stable Diffusion and achieves comparable performance to current state-of-the-art diffusion-based depth and normal estimation models, calling into question some of the conclusions drawn from prior works.

arxiv情報

著者 Gonzalo Martin Garcia,Karim Abou Zeid,Christian Schmidt,Daan de Geus,Alexander Hermans,Bastian Leibe
発行日 2024-09-17 16:58:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク