Single Shot Self-Reliant Scene Text Spotter by Decoupled yet Collaborative Detection and Recognition

要約

典型的なテキストスポッターは、まずテキストインスタンスの境界を検出し、次に検出された領域内でテキスト認識を行う2段階スポッティングパラダイムに従っています。しかし、テキスト認識の性能はテキスト検出の精度に大きく依存し、検出から認識への誤差伝播の可能性があるという重要な制約がある。本研究では、この限界を回避するために、認識と検出を分離し、2つのタスクを協調的に最適化するシングルショットSRSTS v2を提案します。SRSTS v2は、各テキスト候補の周囲の代表的な特徴点をサンプリングし、このサンプリングされた特徴点によって導かれるように、テキストの検出と認識を並行して行う。これにより、テキスト認識は検出に依存しなくなり、検出から認識への誤差伝播が緩和される。また、サンプリングモジュールは検出と認識の両方から学習されるため、2つのタスク間の協調的な最適化と相互強化が可能になる。このようなサンプリング駆動型並行処理フレームワークの恩恵を受けて、我々のアプローチは、正確なテキスト境界の検出が困難な場合でも、テキストインスタンスを正しく認識することができる。また、4つのベンチマークを用いた広範な実験により、本手法が最新のスポッターと比較して良好な結果を示すことを示す。

要約(オリジナル)

Typical text spotters follow the two-stage spotting paradigm which detects the boundary for a text instance first and then performs text recognition within the detected regions. Despite the remarkable progress of such spotting paradigm, an important limitation is that the performance of text recognition depends heavily on the precision of text detection, resulting in the potential error propagation from detection to recognition. In this work, we propose the single shot Self-Reliant Scene Text Spotter v2 (SRSTS v2), which circumvents this limitation by decoupling recognition from detection while optimizing two tasks collaboratively. Specifically, our SRSTS v2 samples representative feature points around each potential text instance, and conducts both text detection and recognition in parallel guided by these sampled points. Thus, the text recognition is no longer dependent on detection, thereby alleviating the error propagation from detection to recognition. Moreover, the sampling module is learned under the supervision from both detection and recognition, which allows for the collaborative optimization and mutual enhancement between two tasks. Benefiting from such sampling-driven concurrent spotting framework, our approach is able to recognize the text instances correctly even if the precise text boundaries are challenging to detect. Extensive experiments on four benchmarks demonstrate that our method compares favorably to state-of-the-art spotters.

arxiv情報

著者 Jingjing Wu,Pengyuan Lyu,Guangming Lu,Chengquan Zhang,Wenjie Pei
発行日 2023-02-07 08:41:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク