LISTER: Neighbor Decoding for Length-Insensitive Scene Text Recognition

要約

長さの多様性は、テキストの重要な特徴を構成します。
テキストの長さはロングテール分布であるため、シーン テキスト認識 (STR) の既存のほとんどの方法は、短いテキストまたは目に見える長さのテキストに対してのみ機能し、長いテキストを認識したり長さの外挿を実行したりする機能がありません。
実際のアプリケーションでは認識されるテキストの長さが通常事前に与えられていないため、これは重要な問題ですが、これまでの研究では十分に調査されていませんでした。
したがって、この論文では、さまざまなテキスト長に対する堅牢性に関する制限を修正する、Length-Insensitive Scene TExt Recognizer (LISTER) と呼ばれる方法を提案します。
具体的には、テキストの長さに関係なく、新しい隣接行列の助けを借りて正確な文字注意マップを取得する隣接デコーダが提案されています。
さらに、特徴拡張モジュールは、低い計算コストで長距離の依存関係をモデル化するために考案されており、隣接デコーダと反復を実行して特徴マップを段階的に強化できます。
私たちの知る限りでは、長さに依存しない効果的なシーン テキスト認識を初めて達成しました。
広範な実験により、提案された LISTER アルゴリズムが長いテキストの認識と長さの外挿能力において明らかな優位性を示し、STR (主に短いテキスト) の標準ベンチマークでは以前の最先端の方法と有利に比較できることが実証されました。

要約(オリジナル)

The diversity in length constitutes a significant characteristic of text. Due to the long-tail distribution of text lengths, most existing methods for scene text recognition (STR) only work well on short or seen-length text, lacking the capability of recognizing longer text or performing length extrapolation. This is a crucial issue, since the lengths of the text to be recognized are usually not given in advance in real-world applications, but it has not been adequately investigated in previous works. Therefore, we propose in this paper a method called Length-Insensitive Scene TExt Recognizer (LISTER), which remedies the limitation regarding the robustness to various text lengths. Specifically, a Neighbor Decoder is proposed to obtain accurate character attention maps with the assistance of a novel neighbor matrix regardless of the text lengths. Besides, a Feature Enhancement Module is devised to model the long-range dependency with low computation cost, which is able to perform iterations with the neighbor decoder to enhance the feature map progressively. To the best of our knowledge, we are the first to achieve effective length-insensitive scene text recognition. Extensive experiments demonstrate that the proposed LISTER algorithm exhibits obvious superiority on long text recognition and the ability for length extrapolation, while comparing favourably with the previous state-of-the-art methods on standard benchmarks for STR (mainly short text).

arxiv情報

著者 Changxu Cheng,Peng Wang,Cheng Da,Qi Zheng,Cong Yao
発行日 2023-08-24 13:26:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク