要約
屋内単眼奥行き推定は、研究への関心が高まっています。
これまでの研究のほとんどは方法論に焦点を当てており、主に NYU-Depth-V2 (NYUv2) データセットを実験し、テスト セット全体の全体的なパフォーマンスのみに焦点を当てていました。
しかし、図書館やキッチンなど、非常に多様で多様な機能 \textit{空間タイプ} が存在する現実世界のシナリオに単眼奥行き推定手法を適用する場合の堅牢性と一般化についてはほとんど知られていません。
事前トレーニングされたモデルのパフォーマンスの差異を認識するには、空間タイプにパフォーマンスを分類するための調査が不可欠です。
堅牢性の調査を容易にし、以前の研究の制限に対処するために、一般的な屋内環境向けの高品質で高解像度の RGBD データセットである InSpaceType を収集します。
InSpaceType に関する 12 の最近のメソッドのベンチマークを行ったところ、スペース タイプに関するパフォーマンスの不均衡が深刻であり、根底にあるバイアスが明らかになりました。
私たちは分析を他の 4 つのデータセット、3 つの緩和アプローチ、および目に見えない空間タイプに一般化する機能に拡張しました。
私たちの研究は、屋内単眼深度推定の空間タイプ間のパフォーマンスの不均衡に関する初めての詳細な調査となり、空間タイプを考慮せずにモデルを展開する場合の潜在的な安全上の懸念に注意を喚起し、ロバスト性を向上させる潜在的な方法にさらに光を当てます。
データと補足ドキュメントについては、\url{https:// Depthcomputation.github.io/DepthPublic} を参照してください。
GitHub プロジェクト ページのベンチマーク リストには、最新の単眼深度推定方法の更新が保存されています。
要約(オリジナル)
Indoor monocular depth estimation has attracted increasing research interest. Most previous works have been focusing on methodology, primarily experimenting with NYU-Depth-V2 (NYUv2) Dataset, and only concentrated on the overall performance over the test set. However, little is known regarding robustness and generalization when it comes to applying monocular depth estimation methods to real-world scenarios where highly varying and diverse functional \textit{space types} are present such as library or kitchen. A study for performance breakdown into space types is essential to realize a pretrained model’s performance variance. To facilitate our investigation for robustness and address limitations of previous works, we collect InSpaceType, a high-quality and high-resolution RGBD dataset for general indoor environments. We benchmark 12 recent methods on InSpaceType and find they severely suffer from performance imbalance concerning space types, which reveals their underlying bias. We extend our analysis to 4 other datasets, 3 mitigation approaches, and the ability to generalize to unseen space types. Our work marks the first in-depth investigation of performance imbalance across space types for indoor monocular depth estimation, drawing attention to potential safety concerns for model deployment without considering space types, and further shedding light on potential ways to improve robustness. See \url{https://depthcomputation.github.io/DepthPublic} for data and the supplementary document. The benchmark list on the GitHub project page keeps updates for the lastest monocular depth estimation methods.
arxiv情報
著者 | Cho-Ying Wu,Quankai Gao,Chin-Cheng Hsu,Te-Lin Wu,Jing-Wen Chen,Ulrich Neumann |
発行日 | 2024-01-30 09:36:19+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google