要約
視差キューがない場合、学習ベースの単一画像奥行き推定 (SIDE) モデルは、画像内のシェーディングとコンテキスト キューに大きく依存します。
このシンプルさは魅力的ですが、そのようなモデルは、キャプチャが困難な大規模で多様なデータセットでトレーニングする必要があります。
CLIP などの事前トレーニングされた基本モデルからの埋め込みを使用すると、いくつかのアプリケーションでゼロ ショット転送が向上することが示されています。
このことからインスピレーションを得て、私たちの論文では、より詳細なコンテキスト情報を提供するために、事前トレーニングされた ViT モデルから生成されたグローバル画像事前分布の使用を検討します。
大規模なデータセットで事前トレーニングされた ViT モデルからの埋め込みベクトルは、疑似画像キャプションを生成し、その後に CLIP ベースのテキスト埋め込みを生成する通常のルートよりも、SIDE に関連するより多くの情報をキャプチャすると主張します。
この考えに基づいて、ViT 埋め込みを条件とした拡散バックボーンを使用した新しい SIDE モデルを提案します。
私たちが提案した設計は、NYUv2 データセット上の SIDE に新しい最先端 (SOTA) を確立し、現在の SOTA (VPD) による Abs Rel 誤差 0.069 と比較して 0.059 (14% 改善) を達成しました。
また、KITTI データセットでは、現在の SOTA (GEDepth) による Sq Rel 誤差 0.142 と比較して、0.139 (2% 改善) の Sq Rel 誤差を達成しました。
NYUv2 でトレーニングされたモデルを使用したゼロショット転送の場合、(Sun-RGBD、iBims1、DIODE、HyperSim) データセット上の NeWCRF と比較して、(20%、23%、81%、25%) の平均相対改善を報告します。
16%、18%、45%、9%)、ZoeDepth による。
コードは https://github.com/Aradhye2002/EcoDepth で入手できます。
要約(オリジナル)
In the absence of parallax cues, a learning-based single image depth estimation (SIDE) model relies heavily on shading and contextual cues in the image. While this simplicity is attractive, it is necessary to train such models on large and varied datasets, which are difficult to capture. It has been shown that using embeddings from pre-trained foundational models, such as CLIP, improves zero shot transfer in several applications. Taking inspiration from this, in our paper we explore the use of global image priors generated from a pre-trained ViT model to provide more detailed contextual information. We argue that the embedding vector from a ViT model, pre-trained on a large dataset, captures greater relevant information for SIDE than the usual route of generating pseudo image captions, followed by CLIP based text embeddings. Based on this idea, we propose a new SIDE model using a diffusion backbone which is conditioned on ViT embeddings. Our proposed design establishes a new state-of-the-art (SOTA) for SIDE on NYUv2 dataset, achieving Abs Rel error of 0.059(14% improvement) compared to 0.069 by the current SOTA (VPD). And on KITTI dataset, achieving Sq Rel error of 0.139 (2% improvement) compared to 0.142 by the current SOTA (GEDepth). For zero-shot transfer with a model trained on NYUv2, we report mean relative improvement of (20%, 23%, 81%, 25%) over NeWCRFs on (Sun-RGBD, iBims1, DIODE, HyperSim) datasets, compared to (16%, 18%, 45%, 9%) by ZoeDepth. The code is available at https://github.com/Aradhye2002/EcoDepth.
arxiv情報
著者 | Suraj Patni,Aradhye Agarwal,Chetan Arora |
発行日 | 2024-03-27 17:53:30+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google