SRFNet: Monocular Depth Estimation with Fine-grained Structure via Spatial Reliability-oriented Fusion of Frames and Events

要約

単眼の奥行き推定は、カメラに対する相対的な距離を測定するための重要なタスクであり、ロボットのナビゲーションや自動運転などのアプリケーションにとって重要です。
従来のフレームベースの方法では、ダイナミック レンジの制限とモーション ブラーによるパフォーマンスの低下が発生します。
したがって、最近の研究では、新しいイベント カメラを活用して、フレームとイベントの特徴の融合を通じてフレーム モダリティを補完またはガイドします。
ただし、イベントストリームは空間的にまばらさを示し、特に光の変化がわずかな領域では、一部の領域が知覚されないままになります。
したがって、RAMNet などの直接融合手法は、各モダリティの最も信頼性の高い領域の寄与を無視することがよくあります。
これにより、モダリティ融合プロセスに構造的な曖昧さが生じ、奥行き推定のパフォーマンスが低下します。
本稿では、昼夜を問わずきめ細かい構造で深度を推定できる新しい空間信頼性指向融合ネットワーク(SRFNet)を提案する。
私たちの手法は 2 つの主要な技術コンポーネントで構成されています。
まず、イベントとフレームの空間事前分布を初期マスクとして適用し、モーダル間特徴融合をガイドするコンセンサス領域を学習する注意ベースのインタラクティブ フュージョン (AIF) モジュールを提案します。
融合された特徴は、フレームおよびイベントの特徴学習を強化するためにフィードバックされます。
一方、出力ヘッドを利用して融合マスクを生成し、合意された空間事前分布を学習するために繰り返し更新されます。
次に、融合された特徴とマスクに基づいて、細粒構造で密な深さを推定するための信頼性指向の深さリファインメント(RDR)モジュールを提案します。
合成データセットと実世界のデータセットに対する私たちの方法の有効性を評価しました。これは、事前トレーニングなしでも、特に夜景において、私たちの方法が以前の方法 (RAMNet など) よりも優れていることを示しています。
私たちのプロジェクトのホームページ: https://vlislab22.github.io/SRFNet。

要約(オリジナル)

Monocular depth estimation is a crucial task to measure distance relative to a camera, which is important for applications, such as robot navigation and self-driving. Traditional frame-based methods suffer from performance drops due to the limited dynamic range and motion blur. Therefore, recent works leverage novel event cameras to complement or guide the frame modality via frame-event feature fusion. However, event streams exhibit spatial sparsity, leaving some areas unperceived, especially in regions with marginal light changes. Therefore, direct fusion methods, e.g., RAMNet, often ignore the contribution of the most confident regions of each modality. This leads to structural ambiguity in the modality fusion process, thus degrading the depth estimation performance. In this paper, we propose a novel Spatial Reliability-oriented Fusion Network (SRFNet), that can estimate depth with fine-grained structure at both daytime and nighttime. Our method consists of two key technical components. Firstly, we propose an attention-based interactive fusion (AIF) module that applies spatial priors of events and frames as the initial masks and learns the consensus regions to guide the inter-modal feature fusion. The fused feature are then fed back to enhance the frame and event feature learning. Meanwhile, it utilizes an output head to generate a fused mask, which is iteratively updated for learning consensual spatial priors. Secondly, we propose the Reliability-oriented Depth Refinement (RDR) module to estimate dense depth with the fine-grained structure based on the fused features and masks. We evaluate the effectiveness of our method on the synthetic and real-world datasets, which shows that, even without pretraining, our method outperforms the prior methods, e.g., RAMNet, especially in night scenes. Our project homepage: https://vlislab22.github.io/SRFNet.

arxiv情報

著者 Tianbo Pan,Zidong Cao,Lin Wang
発行日 2024-07-24 13:38:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク