DepthART: Monocular Depth Estimation as Autoregressive Refinement Task

要約

単眼奥行き推定における識別的アプローチは最近成功しているにもかかわらず、その品質は依然としてトレーニング データセットによって制限されています。
生成的アプローチは、インターネット規模のデータセットでのトレーニングから得られた強力な事前分布を活用することで、この問題を軽減します。
最近の研究では、大規模なテキストから画像への拡散モデルは、深度の小さいデータセットで微調整すると、深度推定において最先端の結果が得られることが実証されています。
同時に、Visual AutoRegressive Modeling~(VAR) などの自己回帰生成アプローチは、条件付き画像合成において有望な結果を示しています。
視覚的自己回帰モデリング パラダイムに従って、視覚的自己回帰変換器に基づく最初の自己回帰深度推定モデルを導入します。
私たちの主な貢献は、深度自己回帰洗練タスクとして定式化された新しいトレーニング方法である DepthART です。
静的なターゲットを使用する元の VAR トレーニング手順とは異なり、私たちの方法では、モデルの自己調整を可能にし、トレーニング中にマルチモーダルなガイダンスを組み込む動的なターゲットの定式化を利用します。
具体的には、トレーニング中にグラウンド トゥルース トークン マップの代わりにモデル予測を入力として使用し、目標を残差の最小化として構成します。
私たちの実験は、提案されたトレーニングアプローチが、深さ推定タスクにおける次のスケール予測による視覚的自己回帰モデリングよりも大幅に優れていることを示しています。
Hypersim でのアプローチでトレーニングされた Visual Autoregressive Transformer は、他の生成ベースラインや識別ベースラインと比較して、目に見えないベンチマークのセットで優れた結果を達成します。

要約(オリジナル)

Despite recent success in discriminative approaches in monocular depth estimation its quality remains limited by training datasets. Generative approaches mitigate this issue by leveraging strong priors derived from training on internet-scale datasets. Recent studies have demonstrated that large text-to-image diffusion models achieve state-of-the-art results in depth estimation when fine-tuned on small depth datasets. Concurrently, autoregressive generative approaches, such as the Visual AutoRegressive modeling~(VAR), have shown promising results in conditioned image synthesis. Following the visual autoregressive modeling paradigm, we introduce the first autoregressive depth estimation model based on the visual autoregressive transformer. Our primary contribution is DepthART — a novel training method formulated as Depth Autoregressive Refinement Task. Unlike the original VAR training procedure, which employs static targets, our method utilizes a dynamic target formulation that enables model self-refinement and incorporates multi-modal guidance during training. Specifically, we use model predictions as inputs instead of ground truth token maps during training, framing the objective as residual minimization. Our experiments demonstrate that the proposed training approach significantly outperforms visual autoregressive modeling via next-scale prediction in the depth estimation task. The Visual Autoregressive Transformer trained with our approach on Hypersim achieves superior results on a set of unseen benchmarks compared to other generative and discriminative baselines.

arxiv情報

著者 Bulat Gabdullin,Nina Konovalova,Nikolay Patakin,Dmitry Senushkin,Anton Konushin
発行日 2024-10-25 12:15:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク