Unsupervised Joint Learning of Optical Flow and Intensity with Event Cameras

要約

イベントカメラは、シーンの外観に関する情報を取得するために動きに依存しています。
言い換えれば、イベントカメラの場合、出力イベントストリームでエンコードされているモーションと外観の両方が見られます。
以前の研究では、これらの2つの視覚量を個別のタスクとして回復することを検討します。これは、イベントカメラの性質に適合せず、両方のタスク間の固有の関係を無視します。
この論文では、単一のネットワークを使用して、光の流れ(動き)と画像強度(外観)を共同で推定する監視されていない学習フレームワークを提案します。
イベント生成モデルから始めて、イベントベースの測光誤差を光学フローと画像強度の関数として導き出します。これは、コントラストの最大化フレームワークとさらに組み合わせて、流れと強度の推定の両方に適切な制約を提供する包括的な損失関数を生成します。
徹底的な実験では、私たちのモデルが光学フロー(監視されていない学習カテゴリでそれぞれ20%と25%の改善を達成します)および強度推定(特に高ダイナミックレンジシナリオで他のベースラインと競合結果を生成する)の両方で最先端のパフォーマンスを達成することが示されています。
最後になりましたが、私たちのモデルは、他のすべての光フローモデルおよび多くの画像再構成モデ​​ルよりも短い推論時間を達成しますが、それらは1つの数量のみを出力します。
プロジェクトページ:https://github.com/tub-rip/e2fai

要約(オリジナル)

Event cameras rely on motion to obtain information about scene appearance. In other words, for event cameras, motion and appearance are seen both or neither, which are encoded in the output event stream. Previous works consider recovering these two visual quantities as separate tasks, which does not fit with the nature of event cameras and neglects the inherent relations between both tasks. In this paper, we propose an unsupervised learning framework that jointly estimates optical flow (motion) and image intensity (appearance), with a single network. Starting from the event generation model, we newly derive the event-based photometric error as a function of optical flow and image intensity, which is further combined with the contrast maximization framework, yielding a comprehensive loss function that provides proper constraints for both flow and intensity estimation. Exhaustive experiments show that our model achieves state-of-the-art performance for both optical flow (achieves 20% and 25% improvement in EPE and AE respectively in the unsupervised learning category) and intensity estimation (produces competitive results with other baselines, particularly in high dynamic range scenarios). Last but not least, our model achieves shorter inference time than all the other optical flow models and many of the image reconstruction models, while they output only one quantity. Project page: https://github.com/tub-rip/e2fai

arxiv情報

著者 Shuang Guo,Friedhelm Hamann,Guillermo Gallego
発行日 2025-03-21 16:04:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, eess.IV パーマリンク