要約
大規模な事前訓練を受けたビジョンモデルはますます一般的になりつつあり、さまざまな下流タスクに利益をもたらす表現力豊かで一般化可能な視覚表現を提供しています。
これらのモデルの緊急特性に関する最近の研究により、特に深さの知覚の文脈における高レベルの幾何学的理解が明らかになりました。
ただし、これらのモデルでは、事前トレーニング中に提供される明示的な深さの監督なしで、深さの知覚がどのように発生するかは不明のままです。
これを調査するために、人間の視覚システムで使用されているものと同様に、単眼の深さのキューがこれらのモデルに出現するかどうかを調べます。
深さキューの理解を評価するように設計された新しいベンチマーク、深さキューを紹介し、20の多様で代表的な訓練を受けた視力モデルにわたって発見を提示します。
私たちの分析は、より最近のより大きなモデルで人間のような深さのキューが出現することを示しています。
また、深度環で微調整することにより、大型ビジョンモデルの深さ知覚の向上を調査し、深さの監督がなくても深さの推定が改善されることを発見します。
さらなる研究をサポートするために、私たちのベンチマークと評価コードは、ビジョンモデルの深さ認識を研究するために公開されます。
要約(オリジナル)
Large-scale pre-trained vision models are becoming increasingly prevalent, offering expressive and generalizable visual representations that benefit various downstream tasks. Recent studies on the emergent properties of these models have revealed their high-level geometric understanding, in particular in the context of depth perception. However, it remains unclear how depth perception arises in these models without explicit depth supervision provided during pre-training. To investigate this, we examine whether the monocular depth cues, similar to those used by the human visual system, emerge in these models. We introduce a new benchmark, DepthCues, designed to evaluate depth cue understanding, and present findings across 20 diverse and representative pre-trained vision models. Our analysis shows that human-like depth cues emerge in more recent larger models. We also explore enhancing depth perception in large vision models by fine-tuning on DepthCues, and find that even without dense depth supervision, this improves depth estimation. To support further research, our benchmark and evaluation code will be made publicly available for studying depth perception in vision models.
arxiv情報
著者 | Duolikun Danier,Mehmet Aygün,Changjian Li,Hakan Bilen,Oisin Mac Aodha |
発行日 | 2025-03-07 17:21:06+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google