Out of Length Text Recognition with Sub-String Matching

要約

シーン テキスト認識 (STR) メソッドは、単語レベルのテキスト認識において堅牢なパフォーマンスを実証しています。
ただし、実際のアプリケーションでは、複数の横文字が検出されるため、テキスト画像が長くなる場合があります。
これにより、これまであまり研究されていなかった、すぐに利用できる短い (単語レベルの) テキスト データセットから長いテキスト認識モデルを構築するという要件が生じます。
このペーパーでは、このタスクを Out of Length (OOL) テキスト認識と呼びます。
私たちは、長文認識におけるさまざまな方法の評価を容易にするために、最初の長文ベンチマーク (LTB) を確立しました。
一方、我々は OOL Text Recognition with sub-String Matching (SMTR) と呼ばれる新しい方法を提案します。
SMTR は 2 つのクロス アテンション ベースのモジュールで構成されます。1 つは複数の文字を含むサブ文字列を次と前のクエリにエンコードし、もう 1 つはクエリを使用して画像の特徴に注目し、サブ文字列を照合し、その次と前のクエリを同時に認識します。
キャラクター。
SMTR は上記のプロセスを繰り返すことで、任意の長さのテキストを認識できます。
非常に類似した部分文字列の認識に囚われるのを避けるために、SMTR が類似した部分文字列間の微妙な違いを効果的に検出して正確に一致するように強制する正則化トレーニングを導入します。
さらに、同じテキスト内の同一の部分文字列によって引き起こされる混乱を軽減し、全体的な認識効率を向上させる推論拡張戦略を提案します。
広範な実験結果により、SMTR は短テキストのみでトレーニングされた場合でも、公開された短テキスト ベンチマークで既存の手法よりも優れたパフォーマンスを示し、LTB で明らかな利点を示すことが明らかになりました。
コード: https://github.com/Topdu/OpenOCR。

要約(オリジナル)

Scene Text Recognition (STR) methods have demonstrated robust performance in word-level text recognition. However, in real applications the text image is sometimes long due to detected with multiple horizontal words. It triggers the requirement to build long text recognition models from readily available short (i.e., word-level) text datasets, which has been less studied previously. In this paper, we term this task Out of Length (OOL) text recognition. We establish the first Long Text Benchmark (LTB) to facilitate the assessment of different methods in long text recognition. Meanwhile, we propose a novel method called OOL Text Recognition with sub-String Matching (SMTR). SMTR comprises two cross-attention-based modules: one encodes a sub-string containing multiple characters into next and previous queries, and the other employs the queries to attend to the image features, matching the sub-string and simultaneously recognizing its next and previous character. SMTR can recognize text of arbitrary length by iterating the process above. To avoid being trapped in recognizing highly similar sub-strings, we introduce a regularization training to compel SMTR to effectively discover subtle differences between similar sub-strings for precise matching. In addition, we propose an inference augmentation strategy to alleviate confusion caused by identical sub-strings in the same text and improve the overall recognition efficiency. Extensive experimental results reveal that SMTR, even when trained exclusively on short text, outperforms existing methods in public short text benchmarks and exhibits a clear advantage on LTB. Code: https://github.com/Topdu/OpenOCR.

arxiv情報

著者 Yongkun Du,Zhineng Chen,Caiyan Jia,Xieping Gao,Yu-Gang Jiang
発行日 2024-08-13 11:36:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク