GeoBench: Benchmarking and Analyzing Monocular Geometry Estimation Models

要約

識別および生成事前トレーニングの最近の進歩により、強力な一般化機能を備えた形状推定モデルが生み出されました。
識別的単眼幾何推定手法は、ゼロショット汎化を達成するために大規模な微調整データに依存していますが、いくつかの生成ベースのパラダイムは、事前にトレーニングされた拡散モデルを活用し、微調整することで、目に見えないシーンで印象的な汎化パフォーマンスを達成できる可能性を示しています。
たとえ小規模な合成トレーニング データであっても。
残念なことに、これらのモデルはさまざまなデータセットのさまざまなレシピでトレーニングされているため、評価パフォーマンスを決定する重要な要素を見つけることが困難になります。
さらに、現在のジオメトリ評価ベンチマークには、この分野の発展を妨げる可能性のある 2 つの主な欠点があります。つまり、シーンの多様性が限られていることと、ラベルの品質が不利であることです。
上記の問題を解決するために、(1) ジオメトリ推定モデルを評価および分析するための統一されたコードベースで公平かつ強力なベースラインを構築します。
(2) 多様なシーンと高品質の注釈を使用した幾何推定タスクのより困難なベンチマークで、単眼幾何推定器を評価します。
私たちの結果は、DINOv2 などの大規模なデータを使用して事前トレーニングされた識別モデルが、同じトレーニング構成の下で少量の高品質の合成データを使用する生成モデルよりも優れたパフォーマンスを発揮できることを明らかにしており、データ品質の微調整がより重要な要素であることを示唆しています。
データのスケールやモデルのアーキテクチャよりも。
私たちの観察は、また、少量の合成深度データを使用して DINOv2 などの一般的な視覚モデルを微調整するだけで SOTA 結果が得られる場合、深度推定に複雑な生成モデルが本当に必要なのかという疑問も生じます。
私たちは、この取り組みによって、形状推定タスクだけでなく、幅広い下流アプリケーションの進歩を推進できると信じています。

要約(オリジナル)

Recent advances in discriminative and generative pretraining have yielded geometry estimation models with strong generalization capabilities. While discriminative monocular geometry estimation methods rely on large-scale fine-tuning data to achieve zero-shot generalization, several generative-based paradigms show the potential of achieving impressive generalization performance on unseen scenes by leveraging pre-trained diffusion models and fine-tuning on even a small scale of synthetic training data. Frustratingly, these models are trained with different recipes on different datasets, making it hard to find out the critical factors that determine the evaluation performance. Besides, current geometry evaluation benchmarks have two main drawbacks that may prevent the development of the field, i.e., limited scene diversity and unfavorable label quality. To resolve the above issues, (1) we build fair and strong baselines in a unified codebase for evaluating and analyzing the geometry estimation models; (2) we evaluate monocular geometry estimators on more challenging benchmarks for geometry estimation task with diverse scenes and high-quality annotations. Our results reveal that pre-trained using large data, discriminative models such as DINOv2, can outperform generative counterparts with a small amount of high-quality synthetic data under the same training configuration, which suggests that fine-tuning data quality is a more important factor than the data scale and model architecture. Our observation also raises a question: if simply fine-tuning a general vision model such as DINOv2 using a small amount of synthetic depth data produces SOTA results, do we really need complex generative models for depth estimation? We believe this work can propel advancements in geometry estimation tasks as well as a wide range of downstream applications.

arxiv情報

著者 Yongtao Ge,Guangkai Xu,Zhiyue Zhao,Libo Sun,Zheng Huang,Yanlong Sun,Hao Chen,Chunhua Shen
発行日 2024-06-18 14:44:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク