Learning Monocular Depth from Events via Egomotion Compensation

要約

イベント カメラは、明るさの変化をまばらかつ非同期に報告する神経形態にヒントを得たセンサーです。
高時間分解能、高ダイナミックレンジ、低消費電力という独自の特性により、単眼の深度推定における課題(高速または低照度条件など)に対処するのに適しています。
しかし、現在の既存の方法は主に、事前の物理原理を組み込むことなく、イベント ストリームをブラック ボックス学習システムとして扱うため、パラメータ化が過剰になり、イベント カメラ データに固有の豊富な時間情報を十分に活用できません。
この制限に対処するために、物理的な動きの原理を組み込んで、解釈可能な単眼奥行き推定フレームワークを提案します。このフレームワークでは、さまざまな奥行き仮説の可能性が動き補償の効果によって明示的に決定されます。
これを達成するために、焦点レベルの重要な指標としてエッジの明瞭度を測定し、コスト推定を容易にするために空間的環境を統合する焦点コスト弁別 (FCD) モジュールを提案します。
さらに、フレームワーク内でノイズ パターンを分析し、新しく導入された仮説間コスト集計 (IHCA) モジュールで改善します。このモジュールでは、コスト傾向予測とマルチスケール コスト一貫性制約を通じてコスト量が洗練されます。
実世界および合成データセットに対する広範な実験により、私たちが提案したフレームワークが絶対相対誤差メトリックに関して最先端の手法よりも最大 10\% 優れていることが実証され、予測精度において優れたパフォーマンスを示しています。

要約(オリジナル)

Event cameras are neuromorphically inspired sensors that sparsely and asynchronously report brightness changes. Their unique characteristics of high temporal resolution, high dynamic range, and low power consumption make them well-suited for addressing challenges in monocular depth estimation (e.g., high-speed or low-lighting conditions). However, current existing methods primarily treat event streams as black-box learning systems without incorporating prior physical principles, thus becoming over-parameterized and failing to fully exploit the rich temporal information inherent in event camera data. To address this limitation, we incorporate physical motion principles to propose an interpretable monocular depth estimation framework, where the likelihood of various depth hypotheses is explicitly determined by the effect of motion compensation. To achieve this, we propose a Focus Cost Discrimination (FCD) module that measures the clarity of edges as an essential indicator of focus level and integrates spatial surroundings to facilitate cost estimation. Furthermore, we analyze the noise patterns within our framework and improve it with the newly introduced Inter-Hypotheses Cost Aggregation (IHCA) module, where the cost volume is refined through cost trend prediction and multi-scale cost consistency constraints. Extensive experiments on real-world and synthetic datasets demonstrate that our proposed framework outperforms cutting-edge methods by up to 10\% in terms of the absolute relative error metric, revealing superior performance in predicting accuracy.

arxiv情報

著者 Haitao Meng,Chonghao Zhong,Sheng Tang,Lian JunJia,Wenwei Lin,Zhenshan Bing,Yi Chang,Gang Chen,Alois Knoll
発行日 2024-12-26 05:41:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, cs.RO パーマリンク