GDIP: Gated Differentiable Image Processing for Object-Detection in Adverse Conditions

要約

悪天候や照明条件下での物体の検出は、自動運転車の安全で継続的な運用に不可欠であり、未解決の問題が残っています。
ドメインに依存しないネットワーク アーキテクチャである Gated Differentiable Image Processing (GDIP) ブロックを提示します。これは、既存のオブジェクト検出ネットワーク (Yolo など) にプラグインし、霧の下でキャプチャされたような悪条件の画像でエンドツーエンドでトレーニングできます。
そして低照度。
提案された GDIP ブロックは、下流のオブジェクト検出損失を通じて直接画像を強化することを学習します。
これは、同時に動作する複数の画像前処理 (IP) 技術のパラメーターを学習し、新しいゲーティング メカニズムによって学習した重みを使用してそれらの出力を組み合わせることによって実現されます。
プログレッシブ画像強調のための多段階ガイダンス手順により、GDIP をさらに改善します。
最後に、精度と速度をトレードオフして、Yolo をトレーニングするための正則化として使用できる GDIP のバリアントを提案します。これにより、推論中に GDIP ベースの画像拡張が不要になり、スループットが向上し、現実世界での展開が可能になります。
PascalVOC、現実世界の霧 (RTTS) および低照度 (ExDark) データセットなどの合成データセットに関する定量的および定性的な研究を通じて、いくつかの最先端の方法よりも検出性能が大幅に向上することを示しています。

要約(オリジナル)

Detecting objects under adverse weather and lighting conditions is crucial for the safe and continuous operation of an autonomous vehicle, and remains an unsolved problem. We present a Gated Differentiable Image Processing (GDIP) block, a domain-agnostic network architecture, which can be plugged into existing object detection networks (e.g., Yolo) and trained end-to-end with adverse condition images such as those captured under fog and low lighting. Our proposed GDIP block learns to enhance images directly through the downstream object detection loss. This is achieved by learning parameters of multiple image pre-processing (IP) techniques that operate concurrently, with their outputs combined using weights learned through a novel gating mechanism. We further improve GDIP through a multi-stage guidance procedure for progressive image enhancement. Finally, trading off accuracy for speed, we propose a variant of GDIP that can be used as a regularizer for training Yolo, which eliminates the need for GDIP-based image enhancement during inference, resulting in higher throughput and plausible real-world deployment. We demonstrate significant improvement in detection performance over several state-of-the-art methods through quantitative and qualitative studies on synthetic datasets such as PascalVOC, and real-world foggy (RTTS) and low-lighting (ExDark) datasets.

arxiv情報

著者 Sanket Kalwar,Dhruv Patel,Aakash Aanegola,Krishna Reddy Konda,Sourav Garg,K Madhava Krishna
発行日 2022-09-29 16:43:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク