Depth Anything: Unleashing the Power of Large-Scale Unlabeled Data

要約

この研究では、ロバストな単眼奥行き推定のための非常に実用的なソリューションである Depth Anything を紹介します。
新しい技術モジュールを追求することなく、あらゆる状況下であらゆる画像に対応する、シンプルかつ強力な基盤モデルの構築を目指します。
この目的を達成するために、大規模なラベルなしデータ (約 6,200 万) を収集して自動的に注釈を付けるデータ エンジンを設計することでデータセットをスケールアップします。これにより、データ範囲が大幅に拡大され、汎化誤差を減らすことができます。
私たちは、データのスケールアップを可能にする 2 つのシンプルかつ効果的な戦略を調査します。
まず、データ拡張ツールを活用して、より困難な最適化ターゲットを作成します。
これにより、モデルは追加の視覚的知識を積極的に求め、堅牢な表現を取得することが強制されます。
第 2 に、事前トレーニングされたエンコーダから豊富な意味論的事前情報を継承するようにモデルを強制する補助監視が開発されます。
私たちは、6 つの公開データセットとランダムに撮影された写真を含め、そのゼロショット機能を広範囲に評価しています。
素晴らしい汎化能力を発揮します。
さらに、NYUv2 や KITTI からのメトリクス深度情報を用いて微調整することで、新しい SOTA が設定されます。
深度モデルが改善されると、深度条件がより適切に調整された ControlNet も得られます。
私たちのモデルは https://github.com/LiheYoung/Depth-Anything でリリースされています。

要約(オリジナル)

This work presents Depth Anything, a highly practical solution for robust monocular depth estimation. Without pursuing novel technical modules, we aim to build a simple yet powerful foundation model dealing with any images under any circumstances. To this end, we scale up the dataset by designing a data engine to collect and automatically annotate large-scale unlabeled data (~62M), which significantly enlarges the data coverage and thus is able to reduce the generalization error. We investigate two simple yet effective strategies that make data scaling-up promising. First, a more challenging optimization target is created by leveraging data augmentation tools. It compels the model to actively seek extra visual knowledge and acquire robust representations. Second, an auxiliary supervision is developed to enforce the model to inherit rich semantic priors from pre-trained encoders. We evaluate its zero-shot capabilities extensively, including six public datasets and randomly captured photos. It demonstrates impressive generalization ability. Further, through fine-tuning it with metric depth information from NYUv2 and KITTI, new SOTAs are set. Our better depth model also results in a better depth-conditioned ControlNet. Our models are released at https://github.com/LiheYoung/Depth-Anything.

arxiv情報

著者 Lihe Yang,Bingyi Kang,Zilong Huang,Xiaogang Xu,Jiashi Feng,Hengshuang Zhao
発行日 2024-01-19 18:59:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク