Towards Robust Real-Time Scene Text Detection: From Semantic to Instance Representation Learning

要約

任意の形状のシーン テキストの柔軟な表現とシンプルなパイプラインにより、リアルタイムのシーン テキスト検出ではボトムアップのセグメンテーション ベースの方法が主流になり始めています。
大きな進歩にもかかわらず、これらの方法は堅牢性に欠陥があり、依然として偽陽性やインスタンスの付着に悩まされています。
複数の粒度の特徴や複数の出力を統合する既存の方法とは異なり、補助タスクを利用してエンコーダーが最適化中にピクセルごとの分類の主要なタスクとロバストな特徴を共同で学習できるようにする表現学習の観点に頼ります。
意味表現の学習のために、グローバル – 高密度セマンティック コントラスト (GDSC) を提案します。GDSC では、ベクトルがグローバル セマンティック表現用に抽出され、密なグリッドの特徴と要素ごとのコントラストを実行するために使用されます。
インスタンスを意識した表現を学習するために、トップダウン モデリング (TDM) とボトムアップ フレームワークを組み合わせて、暗黙的なインスタンス レベルの手がかりをエンコーダーに提供することを提案します。
提案された GDSC と TDM を使用すると、エンコーダ ネットワークは、推論中にパラメータや計算を導入することなく、より強力な表現を学習します。
非常に軽量なデコーダを装備したこの検出器は、より堅牢なリアルタイム シーン テキスト検出を実現できます。
4 つの公開データセットでの実験結果は、提案された方法が精度と速度の両方で最先端の方法を上回る、または同等であることを示しています。
具体的には、提案された方法は、単一の GeForce RTX 2080 Ti GPU 上で、Total-Text で 48.2 FPS で 87.2% F 値、MSRA-TD500 で 36.9 FPS で 89.6% F 値を達成します。

要約(オリジナル)

Due to the flexible representation of arbitrary-shaped scene text and simple pipeline, bottom-up segmentation-based methods begin to be mainstream in real-time scene text detection. Despite great progress, these methods show deficiencies in robustness and still suffer from false positives and instance adhesion. Different from existing methods which integrate multiple-granularity features or multiple outputs, we resort to the perspective of representation learning in which auxiliary tasks are utilized to enable the encoder to jointly learn robust features with the main task of per-pixel classification during optimization. For semantic representation learning, we propose global-dense semantic contrast (GDSC), in which a vector is extracted for global semantic representation, then used to perform element-wise contrast with the dense grid features. To learn instance-aware representation, we propose to combine top-down modeling (TDM) with the bottom-up framework to provide implicit instance-level clues for the encoder. With the proposed GDSC and TDM, the encoder network learns stronger representation without introducing any parameters and computations during inference. Equipped with a very light decoder, the detector can achieve more robust real-time scene text detection. Experimental results on four public datasets show that the proposed method can outperform or be comparable to the state-of-the-art on both accuracy and speed. Specifically, the proposed method achieves 87.2% F-measure with 48.2 FPS on Total-Text and 89.6% F-measure with 36.9 FPS on MSRA-TD500 on a single GeForce RTX 2080 Ti GPU.

arxiv情報

著者 Xugong Qin,Pengyuan Lyu,Chengquan Zhang,Yu Zhou,Kun Yao,Peng Zhang,Hailun Lin,Weiping Wang
発行日 2023-08-14 15:14:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク