要約
過去10年間のコンピュータービジョンにおける深い学習の成功は、大きなラベルのあるデータセットと強力な前提型モデルにかかっています。
データスカース設定では、これらの事前に守られたモデルの品質が効果的な転送学習に不可欠になります。
画像の分類と自己科学の学習は、伝統的にCNNおよび変圧器ベースのアーキテクチャを前提とする主要な方法でした。
最近、テキストから画像への生成モデル、特に潜在空間で拡散を除去するものを使用しているモデルの上昇は、大規模なキャプション付き画像データセットで訓練された新しいクラスの基礎モデルを導入しました。
これらのモデルの目に見えないコンテンツの現実的な画像を生成する能力は、視覚的な世界を深く理解していることを示唆しています。
この作業では、条件付き生成モデルのファミリーであるマリーゴールドと、安定した拡散のような前処理された潜在的拡散モデルから知識を抽出し、単眼の深さ推定、表面正常性の予測、内在性recomepositionなどの高密度の画像分析タスクに適応する微調整プロトコルを提示します。
マリーゴールドは、事前に訓練された潜在的拡散モデルのアーキテクチャの最小限の変更を必要とし、数日間にわたって単一のGPUで小さな合成データセットを備えた列車を必要とし、最先端のゼロショット一般化を実証します。
プロジェクトページ:https://marigoldcomputervision.github.io
要約(オリジナル)
The success of deep learning in computer vision over the past decade has hinged on large labeled datasets and strong pretrained models. In data-scarce settings, the quality of these pretrained models becomes crucial for effective transfer learning. Image classification and self-supervised learning have traditionally been the primary methods for pretraining CNNs and transformer-based architectures. Recently, the rise of text-to-image generative models, particularly those using denoising diffusion in a latent space, has introduced a new class of foundational models trained on massive, captioned image datasets. These models’ ability to generate realistic images of unseen content suggests they possess a deep understanding of the visual world. In this work, we present Marigold, a family of conditional generative models and a fine-tuning protocol that extracts the knowledge from pretrained latent diffusion models like Stable Diffusion and adapts them for dense image analysis tasks, including monocular depth estimation, surface normals prediction, and intrinsic decomposition. Marigold requires minimal modification of the pre-trained latent diffusion model’s architecture, trains with small synthetic datasets on a single GPU over a few days, and demonstrates state-of-the-art zero-shot generalization. Project page: https://marigoldcomputervision.github.io
arxiv情報
著者 | Bingxin Ke,Kevin Qu,Tianfu Wang,Nando Metzger,Shengyu Huang,Bo Li,Anton Obukhov,Konrad Schindler |
発行日 | 2025-05-14 13:07:03+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google