CLIP Can Understand Depth

要約

CLIPの単眼奥行き推定への一般化に関する最近の研究により、ウェブクローリングデータで事前に訓練されたCLIPは、画像パッチと奥行き関連プロンプト間の適切な類似性を導出するためには非効率的であることが明らかになった。本論文では、CLIPの元の視覚言語アライメントを微調整することなく、密な予測による単眼奥行き推定を有意義な品質に適応させる。テキストエンコーダのための静的プロンプトとして、mirrorと名付けられた学習可能な小さな埋め込み行列を持つコンパクトなデコンボリューショナルデコーダを共同で訓練することにより、CLIPは奥行きを理解することが可能になる。このアプローチにより、我々のモデルは、NYU Depth v2とKITTIデータセットにおいて、これまでのいくつかの最先端の視覚のみのモデルに匹敵する印象的な性能を示し、CLIPに基づく深度推定モデルを大きなマージンをもって凌駕する。時間的な奥行きの一貫性と空間的な連続性に関する実験は、CLIPの事前知識が我々の提案するフレームワークによって効果的に改良できることを示す。さらに、ミラーを用いたアブレーション実験により、画像エンコーダからの知識だけでなく、テキストエンコーダからの知識も利用して奥行きを推定することが証明された。この研究により、CLIPのような視覚言語基盤モデルの事前知識は、最小限の調整により、事前学習中の学習が困難な領域でも一般化できることが実証された。我々は、タスクに特化した最先端の方法論と同等の性能を達成する、非人間的な言語プロンプトを用いた視覚言語モデルの最適でない事前知識を調整する方法に焦点を当てた将来の研究を促進する。

要約(オリジナル)

Recent studies on generalizing CLIP for monocular depth estimation reveal that CLIP pre-trained on web-crawled data is inefficient for deriving proper similarities between image patches and depth-related prompts. In this paper, we adapt CLIP for meaningful quality of monocular depth estimation with dense prediction, without fine-tuning its original vision-language alignment. By jointly training a compact deconvolutional decoder with a tiny learnable embedding matrix named mirror, as a static prompt for its text encoder, CLIP is enabled to understand depth. With this approach, our model exhibits impressive performance matching several previous state-of-the-art vision-only models on the NYU Depth v2 and KITTI datasets, outperforming every CLIP-based depth estimation model with a large margin. Experiments on temporal depth consistency and spatial continuity demonstrate that the prior knowledge of CLIP can be effectively refined by our proposed framework. Furthermore, an ablation study on mirror proves that the resulting model estimates depth utilizing knowledge not only from the image encoder but also text encoder despite not being given any prompt written in a human way. This research demonstrates that through minimal adjustments, the prior knowledge of vision-language foundation models, such as CLIP, can be generalized even to domains where learning during pretraining is challenging. We facilitate future works focused on methods to adjust suboptimal prior knowledge of vision-language models using non-human language prompts, achieving performance on par with task-specific state-of-the-art methodologies.

arxiv情報

著者 Dunam Kim,Seokju Lee
発行日 2024-02-05 18:09:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク