SPTS v2: Single-Point Scene Text Spotting

要約

エンドツーエンドのシーンテキストスポッティングは、テキスト検出と認識の本質的な相乗効果により、大きな進歩を遂げている。従来の手法では、水平矩形、回転矩形、四角形、多角形などの手動アノテーションを前提とすることが一般的であり、1点を用いるよりもはるかに高価であった。SPTS v2は、自動回帰変換器の利点である、全テキストインスタンスの中心点を同じ予測順序で順次予測するインスタンスアサインメントデコーダ(IAD)と、テキスト認識を並列に行う並列認識デコーダ(PRD)を備えているため、低コストでシーンテキスト発見モデルの学習が可能であることを初めて実証するものである。この2つのデコーダは同じパラメータを共有し、勾配と情報を受け渡すためのシンプルかつ効果的な情報伝達プロセスでインタラクティブに接続されている。既存の様々なベンチマークデータセットに対する包括的な実験により、SPTS v2は、より少ないパラメータで、これまでの最新鋭のシングルポイントテキストスポッターを凌駕し、同時に14倍の推論速度を達成できることが実証されています。さらに、SPTS v2では、テキストを検出する際に、非点、矩形バウンディングボックス、多角形バウンディングボックスと比較して、1点が最適な設定であるという重要な現象を実験的に明らかにしました。このような試みは、既存のパラダイムの領域を超えたシーンテキストスポッティングのアプリケーションに大きな機会を提供します。コードは https://github.com/shannanyinxiang/SPTS で公開されています。

要約(オリジナル)

End-to-end scene text spotting has made significant progress due to its intrinsic synergy between text detection and recognition. Previous methods commonly regard manual annotations such as horizontal rectangles, rotated rectangles, quadrangles,and polygons as a prerequisite, which are much more expensive than using single-point. For the first time, we demonstrate that training scene text spotting models can be achieved with an extremely low-cost single-point annotation by the proposed framework, termed SPTS v2. SPTS v2 reserves the advantage of the auto-regressive Transformer with an Instance Assignment Decoder (IAD) through sequentially predicting the center points of all text instances inside the same predicting sequence, while with a Parallel Recognition Decoder (PRD) for text recognition in parallel. These two decoders share the same parameters and are interactively connected with a simple but effective information transmission process to pass the gradient and information. Comprehensive experiments on various existing benchmark datasets demonstrate the SPTS v2 can outperform previous state-of-the-art single-point text spotters with fewer parameters while achieving 14x faster inference speed. Most importantly, within the scope of our SPTS v2, extensive experiments further reveal an important phenomenon that single-point serves as the optimal setting for the scene text spotting compared to non-point, rectangular bounding box, and polygonal bounding box. Such an attempt provides a significant opportunity for scene text spotting applications beyond the realms of existing paradigms. Code is available at https://github.com/shannanyinxiang/SPTS.

arxiv情報

著者 Yuliang Liu,Jiaxin Zhang,Dezhi Peng,Mingxin Huang,Xinyu Wang,Jingqun Tang,Can Huang,Dahua Lin,Chunhua Shen,Xiang Bai,Lianwen Jin
発行日 2023-01-04 14:20:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CV パーマリンク