VistaDepth: Frequency Modulation With Bias Reweighting For Enhanced Long-Range Depth Estimation

要約

単眼深度推定(MDE)は、単一のRGB画像からピクセルあたりの深度値を予測することを目的としています。
最近の進歩により、拡散モデルは、条件付き画像生成タスクとしてチャレンジをフレーミングすることにより、効果的なMDEツールとして位置づけられています。
それらの進歩にもかかわらず、これらの方法は、主に深さ値の不均衡な分布と空間領土機能への過度の依存のために、遠い深さを正確に再構築することに苦労します。
これらの制限を克服するために、適応性のある周波数ドメイン特徴の機能強化を適応型重量バランスメカニズムと拡散プロセスに統合する新しいフレームワークであるVistadepthを紹介します。
私たちのアプローチの中心は、潜在周波数変調(LFM)モジュールであり、潜在的な特徴空間のスペクトル応答を動的に改良し、それにより構造の詳細の保存を改善し、ノイズの多いアーティファクトを減らします。
さらに、拡散損失をリアルタイムで調節する適応重み戦略を実装し、遠い深度再構成に対するモデルの感度を高めます。
これらのイノベーションは、距離と詳細の両方で優れた深さの知覚パフォーマンスを集合的にもたらします。
実験的評価では、Vistadepthが拡散ベースのMDE技術の間で最先端のパフォーマンスを達成し、特に遠い地域の正確な再構築に優れていることが確認されています。

要約(オリジナル)

Monocular depth estimation (MDE) aims to predict per-pixel depth values from a single RGB image. Recent advancements have positioned diffusion models as effective MDE tools by framing the challenge as a conditional image generation task. Despite their progress, these methods often struggle with accurately reconstructing distant depths, due largely to the imbalanced distribution of depth values and an over-reliance on spatial-domain features. To overcome these limitations, we introduce VistaDepth, a novel framework that integrates adaptive frequency-domain feature enhancements with an adaptive weight-balancing mechanism into the diffusion process. Central to our approach is the Latent Frequency Modulation (LFM) module, which dynamically refines spectral responses in the latent feature space, thereby improving the preservation of structural details and reducing noisy artifacts. Furthermore, we implement an adaptive weighting strategy that modulates the diffusion loss in real-time, enhancing the model’s sensitivity towards distant depth reconstruction. These innovations collectively result in superior depth perception performance across both distance and detail. Experimental evaluations confirm that VistaDepth achieves state-of-the-art performance among diffusion-based MDE techniques, particularly excelling in the accurate reconstruction of distant regions.

arxiv情報

著者 Mingxia Zhan,Li Zhang,XiaoMeng Chu,Beibei Wang
発行日 2025-04-21 13:30:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク