要約
水中の劣化した画像は、対象物体を検出する既存のアルゴリズムに大きな課題をもたらします。
最近、研究者は、検出器の特徴表現を改善するために、アテンション メカニズムまたは複合接続を採用しようとしています。
ただし、このソリューションは、色やテクスチャなどの画像コンテンツに対する劣化の影響を排除し、最小限の改善を達成するものではありません。
水中物体検出のもう 1 つの実現可能なソリューションは、画質や機能を向上させるために洗練されたディープ アーキテクチャを開発することです。
それにもかかわらず、これらの拡張モジュールの視覚的に魅力的な出力は、必ずしも深い検出器に対して高い精度を生み出すわけではありません。
最近では、いくつかのマルチタスク学習方法が水中探知と画像強調を共同して学習し、有望な改善を実現しています。
通常、これらの方法では大規模なアーキテクチャと高価な計算が呼び出され、非効率的な推論が行われます。
確かに、水中物体の検出と画像強調は、相互に関連する 2 つのタスクです。
2 つのタスクから得られる情報を活用すると、それぞれのタスクに利益をもたらすことができます。
これらの事実に基づいた意見に基づいて、水中物体検出と画像強調を共同学習するためのバイレベル最適化定式化を提案し、その後 2 つのタスクの二重認識ネットワーク (DPNet) に展開します。
1 つの共有モジュールと 2 つのタスク サブネットを持つ DPNet は、2 つの異なるタスクから学習し、共有表現を求めます。
共有表現により、画像強調のためのより構造的な詳細と、物体検出のための豊富なコンテンツ情報が提供されます。
最後に、DPNet のパラメーターを最適化するための協調トレーニング戦略を導き出します。
実世界および合成の水中データセットに対する広範な実験により、私たちの方法が視覚的に好ましい画像とより高い検出精度を出力することが実証されました。
要約(オリジナル)
Underwater degraded images greatly challenge existing algorithms to detect objects of interest. Recently, researchers attempt to adopt attention mechanisms or composite connections for improving the feature representation of detectors. However, this solution does \textit{not} eliminate the impact of degradation on image content such as color and texture, achieving minimal improvements. Another feasible solution for underwater object detection is to develop sophisticated deep architectures in order to enhance image quality or features. Nevertheless, the visually appealing output of these enhancement modules do \textit{not} necessarily generate high accuracy for deep detectors. More recently, some multi-task learning methods jointly learn underwater detection and image enhancement, accessing promising improvements. Typically, these methods invoke huge architecture and expensive computations, rendering inefficient inference. Definitely, underwater object detection and image enhancement are two interrelated tasks. Leveraging information coming from the two tasks can benefit each task. Based on these factual opinions, we propose a bilevel optimization formulation for jointly learning underwater object detection and image enhancement, and then unroll to a dual perception network (DPNet) for the two tasks. DPNet with one shared module and two task subnets learns from the two different tasks, seeking a shared representation. The shared representation provides more structural details for image enhancement and rich content information for object detection. Finally, we derive a cooperative training strategy to optimize parameters for DPNet. Extensive experiments on real-world and synthetic underwater datasets demonstrate that our method outputs visually favoring images and higher detection accuracy.
arxiv情報
著者 | Chenping Fu,Wanqi Yuan,Jiewen Xiao,Risheng Liu,Xin Fan |
発行日 | 2023-07-07 11:54:06+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google