要約
本作はDepth Anything V2を紹介します。
私たちは、派手なテクニックを追求することなく、強力な単眼奥行き推定モデルの構築への道を開く重要な発見を明らかにすることを目指しています。
特に、V1 と比較して、このバージョンは 3 つの重要な実践を通じて、より細かく、より堅牢な深度予測を生成します。1) すべてのラベル付き実画像を合成画像に置き換える、2) 教師モデルの容量をスケールアップする、3) を介して生徒モデルを教える
大規模な擬似ラベル付き実画像のブリッジ。
Stable Diffusion に基づいて構築された最新モデルと比較して、当社のモデルは大幅に効率が高く (10 倍以上高速)、より正確です。
広範なシナリオをサポートするために、さまざまなスケール (25M から 1.3B パラメータの範囲) のモデルを提供します。
強力な一般化機能の利点を活用して、メトリック深度ラベルを使用して微調整し、メトリック深度モデルを取得します。
モデルに加えて、現在のテストセットの多様性の制限と頻繁なノイズを考慮して、将来の研究を促進するために、正確な注釈と多様なシーンを備えた多用途の評価ベンチマークを構築します。
要約(オリジナル)
This work presents Depth Anything V2. Without pursuing fancy techniques, we aim to reveal crucial findings to pave the way towards building a powerful monocular depth estimation model. Notably, compared with V1, this version produces much finer and more robust depth predictions through three key practices: 1) replacing all labeled real images with synthetic images, 2) scaling up the capacity of our teacher model, and 3) teaching student models via the bridge of large-scale pseudo-labeled real images. Compared with the latest models built on Stable Diffusion, our models are significantly more efficient (more than 10x faster) and more accurate. We offer models of different scales (ranging from 25M to 1.3B params) to support extensive scenarios. Benefiting from their strong generalization capability, we fine-tune them with metric depth labels to obtain our metric depth models. In addition to our models, considering the limited diversity and frequent noise in current test sets, we construct a versatile evaluation benchmark with precise annotations and diverse scenes to facilitate future research.
arxiv情報
著者 | Lihe Yang,Bingyi Kang,Zilong Huang,Zhen Zhao,Xiaogang Xu,Jiashi Feng,Hengshuang Zhao |
発行日 | 2024-06-13 17:59:56+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google