Unifying Event-based Flow, Stereo and Depth Estimation via Feature Similarity Matching

要約

新しいビジョン センサーとして、イベント カメラは、高速、スパース、非同期のイベント ストリームにより、オプティカル フロー推定、ステレオ マッチング、深度推定などのさまざまなビジョン タスクで人気を集めています。
特定のタスクごとに特化したアーキテクチャを使用する従来のアプローチとは異なり、私たちはこれらのタスクをイベントベースの密な対応マッチング問題として再定式化する統一フレームワーク EventMatch を提案します。これにより、特徴の類似性を直接比較することで単一のモデルでタスクを解決できるようになります。
時間的または空間的相互作用を介して他のイベント フローからの知識を統合する共有特徴類似性モジュールと個別のタスク ヘッドを利用することで、ネットワークは時間入力 (たとえば、時間領域のイベント ストリームの 2 つのセグメント) からオプテ​​ィカル フロー推定を同時に実行できます。
空間入力からのステレオ マッチング (空間領域の異なる視点からのイベント ストリームの 2 つのセグメントなど)。
さらに、アーキテクチャとパラメータがタスク間で共有されるため、統合モデルが本質的にクロスタスク転送をサポートしていることをさらに実証します。
各タスクを再トレーニングする必要がなく、私たちのモデルはオプティカル フローと視差推定の両方を効果的に同時に処理できます。
DSEC ベンチマークで行われた実験は、私たちのモデルがオプティカル フローと視差推定タスクの両方で優れたパフォーマンスを示し、既存の最先端の手法を上回るパフォーマンスを示していることを示しています。
私たちの統一されたアプローチは、イベントベースのモデルを進歩させるだけでなく、空間的次元と時間的次元の両方でクロスタスク転送とタスク間融合の新たな可能性を開きます。
私たちのコードは後で利用可能になります。

要約(オリジナル)

As an emerging vision sensor, the event camera has gained popularity in various vision tasks such as optical flow estimation, stereo matching, and depth estimation due to its high-speed, sparse, and asynchronous event streams. Unlike traditional approaches that use specialized architectures for each specific task, we propose a unified framework, EventMatch, that reformulates these tasks as an event-based dense correspondence matching problem, allowing them to be solved with a single model by directly comparing feature similarities. By utilizing a shared feature similarities module, which integrates knowledge from other event flows via temporal or spatial interactions, and distinct task heads, our network can concurrently perform optical flow estimation from temporal inputs (e.g., two segments of event streams in the temporal domain) and stereo matching from spatial inputs (e.g., two segments of event streams from different viewpoints in the spatial domain). Moreover, we further demonstrate that our unified model inherently supports cross-task transfer since the architecture and parameters are shared across tasks. Without the need for retraining on each task, our model can effectively handle both optical flow and disparity estimation simultaneously. The experiment conducted on the DSEC benchmark demonstrates that our model exhibits superior performance in both optical flow and disparity estimation tasks, outperforming existing state-of-the-art methods. Our unified approach not only advances event-based models but also opens new possibilities for cross-task transfer and inter-task fusion in both spatial and temporal dimensions. Our code will be available later.

arxiv情報

著者 Pengjie Zhang,Lin Zhu,Lizhi Wang,Hua Huang
発行日 2024-07-31 16:43:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク