Self-supervised Implicit Glyph Attention for Text Recognition

要約

アテンション メカニズムは、文字レベルの表現を抽出できるため、シーン テキスト認識 (STR) メソッドの \emph{事実上の} モジュールとなっています。
これらの方法は、注意の計算方法に応じて、暗黙的注意ベースと教師あり注意に要約できます。つまり、暗黙的注意と教師あり注意は、それぞれシーケンスレベルのテキスト注釈または文字レベルのバウンディングボックス注釈から学習されます。
暗黙的な注意は、キャラクターの注意として粗い、または不正確な空間領域を抽出する可能性があるため、位置合わせによるドリフトの問題に悩まされる傾向があります。
監視付きアテンションは上記の問題を軽減できますが、これは文字カテゴリ固有であるため、文字レベルの境界ボックスの注釈を追加する手間がかかり、より大きな文字カテゴリを持つ言語を処理する場合にはメモリを大量に消費することになります。
前述の問題に対処するために、STR 用の新しいアテンション メカニズム、自己教師あり暗黙的グリフ アテンション (SIGA) を提案します。
SIGA は、自己監視型のテキスト セグメンテーションと暗黙的なアテンション アライメントを共同で行うことにより、テキスト画像のグリフ構造を描写します。これらは、余分な文字レベルの注釈を付けずに、アテンションの正確性を向上させるための監視として機能します。
実験結果は、公開されているコンテキスト ベンチマークと私たちが提供したコンテキストレス ベンチマークにおける注意の正しさと最終認識パフォーマンスの両方の点で、SIGA が以前の注意ベースの STR 手法よりも一貫して大幅に優れたパフォーマンスを発揮することを示しています。

要約(オリジナル)

The attention mechanism has become the \emph{de facto} module in scene text recognition (STR) methods, due to its capability of extracting character-level representations. These methods can be summarized into implicit attention based and supervised attention based, depended on how the attention is computed, i.e., implicit attention and supervised attention are learned from sequence-level text annotations and or character-level bounding box annotations, respectively. Implicit attention, as it may extract coarse or even incorrect spatial regions as character attention, is prone to suffering from an alignment-drifted issue. Supervised attention can alleviate the above issue, but it is character category-specific, which requires extra laborious character-level bounding box annotations and would be memory-intensive when handling languages with larger character categories. To address the aforementioned issues, we propose a novel attention mechanism for STR, self-supervised implicit glyph attention (SIGA). SIGA delineates the glyph structures of text images by jointly self-supervised text segmentation and implicit attention alignment, which serve as the supervision to improve attention correctness without extra character-level annotations. Experimental results demonstrate that SIGA performs consistently and significantly better than previous attention-based STR methods, in terms of both attention correctness and final recognition performance on publicly available context benchmarks and our contributed contextless benchmarks.

arxiv情報

著者 Tongkun Guan,Chaochen Gu,Jingzheng Tu,Xue Yang,Qi Feng,Yudi Zhao,Xiaokang Yang,Wei Shen
発行日 2023-05-15 09:58:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク