Seeing and Seeing Through the Glass: Real and Synthetic Data for Multi-Layer Depth Estimation

要約

透明なオブジェクトは日常生活で一般的であり、透明な表面とその背後にあるオブジェクトの両方を知覚する多層深度情報を理解することは、透明な材料と相互作用する実際のアプリケーションにとって重要です。
このホワイトペーパーでは、マルチレイヤー深度推定のタスクをサポートするために、実際のベンチマークや合成データジェネレーターを含む多層深度注釈を含む最初のデータセットであるLayeredDepthを紹介します。
現実世界のベンチマークは、多様なシーンからの1,500の画像で構成されており、最先端の深度推定方法を評価すると、透明なオブジェクトと格闘しています。
合成データジェネレーターは完全に手続き的であり、このタスクのトレーニングデータを無制限の種類のオブジェクトとシーン構成で提供することができます。
このジェネレーターを使用して、15,300枚の画像で合成データセットを作成します。
この合成データセットでのみトレーニングするベースラインモデルは、良好なクロスドメイン多層深度推定を生成します。
最先端のシングルレイヤー深度モデルを微調整すると、透明なオブジェクトでのパフォーマンスが大幅に向上し、ベンチマークのQuadrupletの精度は55.14%から75.20%に増加しました。
すべての画像と検証注釈は、https://layereddepth.cs.princeton.eduのCC0で入手できます。

要約(オリジナル)

Transparent objects are common in daily life, and understanding their multi-layer depth information — perceiving both the transparent surface and the objects behind it — is crucial for real-world applications that interact with transparent materials. In this paper, we introduce LayeredDepth, the first dataset with multi-layer depth annotations, including a real-world benchmark and a synthetic data generator, to support the task of multi-layer depth estimation. Our real-world benchmark consists of 1,500 images from diverse scenes, and evaluating state-of-the-art depth estimation methods on it reveals that they struggle with transparent objects. The synthetic data generator is fully procedural and capable of providing training data for this task with an unlimited variety of objects and scene compositions. Using this generator, we create a synthetic dataset with 15,300 images. Baseline models training solely on this synthetic dataset produce good cross-domain multi-layer depth estimation. Fine-tuning state-of-the-art single-layer depth models on it substantially improves their performance on transparent objects, with quadruplet accuracy on our benchmark increased from 55.14% to 75.20%. All images and validation annotations are available under CC0 at https://layereddepth.cs.princeton.edu.

arxiv情報

著者 Hongyu Wen,Yiming Zuo,Venkat Subramanian,Patrick Chen,Jia Deng
発行日 2025-03-14 17:52:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク