DeepSolo++: Let Transformer Decoder with Explicit Points Solo for Text Spotting

要約

エンドツーエンドのテキスト スポッティングは、シーン テキストの検出と認識を統一フレームワークに統合することを目的としています。
2 つのサブタスク間の関係を扱うことは、効果的なスポッターを設計する上で極めて重要な役割を果たします。
Transformer ベースの手法ではヒューリスティックな後処理が不要になりますが、依然としてサブタスク間の相乗効果の問題とトレーニング効率の低さに悩まされます。
この論文では、明示的なポイントを持つ単一のデコーダでテキストの検出と認識を同時に効率的に行うことができる、シンプルな DETR のようなベースラインである DeepSolo を紹介します。
技術的には、テキスト インスタンスごとに、文字シーケンスを順序付けされたポイントとして表し、学習可能な明示的なポイント クエリでモデル化します。
単一のデコーダを通過した後、ポイント クエリには必要なテキストのセマンティクスと位置がエンコードされます。
さらに、文字クラス、言語タイプ、タスクの観点から、このメソッドの驚くほど優れた拡張性を示します。
一方では、DeepSolo は英語のシーンで優れたパフォーマンスを発揮するだけでなく、複雑なフォント構造と千レベルの文字クラスを備えた中国語の転写も習得します。
一方、DeepSolo の拡張性に基づいて、多言語テキスト スポッティング用の DeepSolo++ を起動し、明示的なポイントを備えた Transformer デコーダーを単独で多言語テキストの検出、認識、およびスクリプト識別を一度に実行できるようにするさらなるステップを実行します。
公開ベンチマークでの広範な実験により、私たちのシンプルなアプローチが Transformer ベースのモデルと比較して優れたトレーニング効率を実現し、以前の最先端のモデルを上回るパフォーマンスを発揮することが実証されました。
さらに、DeepSolo および DeepSolo++ は、ポリゴンよりもはるかに少ない注釈コストを必要とする線注釈とも互換性があります。
コードは \url{https://github.com/ViTAE-Transformer/DeepSolo} で入手できます。

要約(オリジナル)

End-to-end text spotting aims to integrate scene text detection and recognition into a unified framework. Dealing with the relationship between the two sub-tasks plays a pivotal role in designing effective spotters. Although Transformer-based methods eliminate the heuristic post-processing, they still suffer from the synergy issue between the sub-tasks and low training efficiency. In this paper, we present DeepSolo, a simple DETR-like baseline that lets a single decoder with explicit points solo for text detection and recognition simultaneously and efficiently. Technically, for each text instance, we represent the character sequence as ordered points and model them with learnable explicit point queries. After passing a single decoder, the point queries have encoded requisite text semantics and locations. Furthermore, we show the surprisingly good extensibility of our method, in terms of character class, language type, and task. On the one hand, DeepSolo not only performs well in English scenes but also masters the Chinese transcription with complex font structure and a thousand-level character classes. On the other hand, based on the extensibility of DeepSolo, we launch DeepSolo++ for multilingual text spotting, making a further step to let Transformer decoder with explicit points solo for multilingual text detection, recognition, and script identification all at once. Extensive experiments on public benchmarks demonstrate that our simple approach achieves better training efficiency compared with Transformer-based models and outperforms the previous state-of-the-art. In addition, DeepSolo and DeepSolo++ are also compatible with line annotations, which require much less annotation cost than polygons. The code is available at \url{https://github.com/ViTAE-Transformer/DeepSolo}.

arxiv情報

著者 Maoyuan Ye,Jing Zhang,Shanshan Zhao,Juhua Liu,Tongliang Liu,Bo Du,Dacheng Tao
発行日 2023-05-31 15:44:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク