Boosting Night-time Scene Parsing with Learnable Frequency

要約

夜間シーン解析 (NTSP) は、多くのビジョン アプリケーション、特に自動運転に不可欠です。
既存の方法のほとんどは、日中のシーンの解析のために提案されています。
それらは、均一な照明下でのピクセル強度ベースの空間コンテキスト キューのモデル化に依存しています。
したがって、これらの方法は、夜間のシーンでは、そのような空間的コンテキストの手がかりが露出過多/露出不足の領域に埋もれているため、うまく機能しません。
この論文では、最初に画像周波数ベースの統計実験を行い、昼と夜のシーンの不一致を解釈します。
画像の頻度分布は昼と夜のシーンで大きく異なることがわかり、そのような頻度分布を理解することは NTSP 問題にとって重要です。
これに基づいて、夜間シーンの解析に画像頻度分布を利用することを提案します。
まず、すべての周波数成分を動的に測定するために、異なる周波数係数間の関係をモデル化する学習可能な周波数エンコーダ (LFE) を提案します。
次に、空間情報と周波数情報の両方を融合して空間コンテキスト機能の抽出をガイドする空間周波数融合モジュール (SFF) を提案します。
広範な実験により、NightCity、NightCity+、および BDD100K-night データセットに対する最先端の方法に対して、私たちの方法が有利に機能することが示されています。
さらに、この方法を既存の昼間のシーン解析方法に適用して、夜間のシーンでのパフォーマンスを向上できることを示します。

要約(オリジナル)

Night-Time Scene Parsing (NTSP) is essential to many vision applications, especially for autonomous driving. Most of the existing methods are proposed for day-time scene parsing. They rely on modeling pixel intensity-based spatial contextual cues under even illumination. Hence, these methods do not perform well in night-time scenes as such spatial contextual cues are buried in the over-/under-exposed regions in night-time scenes. In this paper, we first conduct an image frequency-based statistical experiment to interpret the day-time and night-time scene discrepancies. We find that image frequency distributions differ significantly between day-time and night-time scenes, and understanding such frequency distributions is critical to NTSP problem. Based on this, we propose to exploit the image frequency distributions for night-time scene parsing. First, we propose a Learnable Frequency Encoder (LFE) to model the relationship between different frequency coefficients to measure all frequency components dynamically. Second, we propose a Spatial Frequency Fusion module (SFF) that fuses both spatial and frequency information to guide the extraction of spatial context features. Extensive experiments show that our method performs favorably against the state-of-the-art methods on the NightCity, NightCity+ and BDD100K-night datasets. In addition, we demonstrate that our method can be applied to existing day-time scene parsing methods and boost their performance on night-time scenes.

arxiv情報

著者 Zhifeng Xie,Sen Wang,Ke Xu,Zhizhong Zhang,Xin Tan,Yuan Xie,Lizhuang Ma
発行日 2022-08-30 13:09:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク