DeepSolo: Let Transformer Decoder with Explicit Points Solo for Text Spotting

要約

エンドツーエンドのテキストスポッティングは、シーンのテキスト検出と認識を統一されたフレームワークに統合することを目的としています。2つのサブタスク間の関係を扱うことは、効果的なスポッターを設計する上で極めて重要な役割を果たす。Transformerベースの手法は、ヒューリスティックな後処理を排除するものの、依然としてサブタスク間の相乗効果の問題や学習効率の低さに悩まされている。本論文では、DETRのようなシンプルなベースラインであるDeepSoloを提示し、明示的なポイントを持つ単一のデコーダがテキスト検出と認識を同時に行うことを可能にする。技術的には、各テキストインスタンスに対して、文字列を順序付けられた点として表現し、学習可能な明示的点クエリでそれらをモデル化する。この点クエリは、1つのデコーダを通過した後、必要なテキストの意味と位置を符号化しているため、並行して非常に単純な予測ヘッドを介して、テキストの中心線、境界線、スクリプト、確信度にさらに復号することができる。さらに、テキストマッチング基準を導入することで、より正確な監視信号を提供し、より効率的なトレーニングを可能にします。公開ベンチマークを用いた定量的な実験により、DeepSoloがこれまでの最先端手法を上回り、より優れた学習効率を達成することが実証されています。さらに、DeepSoloは、ポリゴンよりもはるかに少ないアノテーションコストで済むラインアノテーションにも対応しています。コードは https://github.com/ViTAE-Transformer/DeepSolo で公開されています。

要約(オリジナル)

End-to-end text spotting aims to integrate scene text detection and recognition into a unified framework. Dealing with the relationship between the two sub-tasks plays a pivotal role in designing effective spotters. Although Transformer-based methods eliminate the heuristic post-processing, they still suffer from the synergy issue between the sub-tasks and low training efficiency. In this paper, we present DeepSolo, a simple DETR-like baseline that lets a single Decoder with Explicit Points Solo for text detection and recognition simultaneously. Technically, for each text instance, we represent the character sequence as ordered points and model them with learnable explicit point queries. After passing a single decoder, the point queries have encoded requisite text semantics and locations, thus can be further decoded to the center line, boundary, script, and confidence of text via very simple prediction heads in parallel. Besides, we also introduce a text-matching criterion to deliver more accurate supervisory signals, thus enabling more efficient training. Quantitative experiments on public benchmarks demonstrate that DeepSolo outperforms previous state-of-the-art methods and achieves better training efficiency. In addition, DeepSolo is also compatible with line annotations, which require much less annotation cost than polygons. The code is available at https://github.com/ViTAE-Transformer/DeepSolo.

arxiv情報

著者 Maoyuan Ye,Jing Zhang,Shanshan Zhao,Juhua Liu,Tongliang Liu,Bo Du,Dacheng Tao
発行日 2023-03-06 13:36:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク