Seeing Text in the Dark: Algorithm and Benchmark

要約

視覚的に劣化するため、暗い環境でテキストをローカライズするのは困難です。
単純なソリューションには、最初のステップとして低照度画像強調 (LLE) を備えた 2 段階のパイプラインが含まれ、その後検出器が続きますが、LLE は主に機械ではなく人間の視覚向けに設計されており、エラーが蓄積する可能性があります。
この研究では、LLE の必要性を回避し、暗闇でテキストをローカライズするための効率的かつ効果的な単一段階のアプローチを提案します。
テキスト検出器のトレーニング段階で補助メカニズムとして制約付き学習モジュールを導入します。
このモジュールは、特徴マップのサイズ変更中にテキストの空間特徴を保存するようにテキスト検出器をガイドするように設計されており、これにより、低照度の視覚劣化下でのテキストの空間情報の損失を最小限に抑えます。
具体的には、空間再構成と空間意味論的制約をこのモジュール内に組み込んで、テキスト検出器が重要な位置および文脈範囲の知識を確実に取得できるようにします。
私たちのアプローチは、動的なスネーク特徴ピラミッド ネットワークを使用してテキストのローカル トポロジー特徴を識別する元のテキスト検出器の能力を強化し、流線型のテキスト特徴を正確に描写するための新しい長方形累積技術を使用したボトムアップの輪郭整形戦略を採用しています。
さらに、さまざまなシーンや言語を含む、任意の形状のテキスト用の包括的な低照度データセットを紹介します。
特に、私たちの方法は、この低照度データセットで最先端の結果を達成し、標準的な通常光データセットで同等のパフォーマンスを示します。
コードとデータセットはリリースされます。

要約(オリジナル)

Localizing text in low-light environments is challenging due to visual degradations. Although a straightforward solution involves a two-stage pipeline with low-light image enhancement (LLE) as the initial step followed by detector, LLE is primarily designed for human vision instead of machine and can accumulate errors. In this work, we propose an efficient and effective single-stage approach for localizing text in dark that circumvents the need for LLE. We introduce a constrained learning module as an auxiliary mechanism during the training stage of the text detector. This module is designed to guide the text detector in preserving textual spatial features amidst feature map resizing, thus minimizing the loss of spatial information in texts under low-light visual degradations. Specifically, we incorporate spatial reconstruction and spatial semantic constraints within this module to ensure the text detector acquires essential positional and contextual range knowledge. Our approach enhances the original text detector’s ability to identify text’s local topological features using a dynamic snake feature pyramid network and adopts a bottom-up contour shaping strategy with a novel rectangular accumulation technique for accurate delineation of streamlined text features. In addition, we present a comprehensive low-light dataset for arbitrary-shaped text, encompassing diverse scenes and languages. Notably, our method achieves state-of-the-art results on this low-light dataset and exhibits comparable performance on standard normal light datasets. The code and dataset will be released.

arxiv情報

著者 Chengpei Xu,Hao Fu,Long Ma,Wenjing Jia,Chengqi Zhang,Feng Xia,Xiaoyu Ai,Binghao Li,Wenjie Zhang
発行日 2024-04-24 00:40:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.MM パーマリンク