Self-supervised Implicit Glyph Attention for Text Recognition

要約

注意メカニズムは、文字レベルの表現を抽出できるため、シーン テキスト認識 (STR) メソッドの事実上のモジュールになっています。
これらのメソッドは、注意の計算方法に応じて、暗黙的注意ベースと教師付き注意ベースに要約できます。つまり、暗黙的注意と教師付き注意は、それぞれシーケンス レベルのテキスト アノテーションと文字レベルのバウンディング ボックス アノテーションから学習されます。
暗黙の注意は、キャラクターの注意として粗いまたは不正確な空間領域を抽出する可能性があるため、配置ドリフトの問題に悩まされる傾向があります。
監視された注意によって上記の問題を軽減できますが、これはカテゴリ固有のものであり、文字レベルのバウンディング ボックスの注釈に余分な労力が必要であり、文字カテゴリの数が多い場合はメモリを大量に消費します。
前述の問題に対処するために、STR の新しいアテンション メカニズムである、自己教師あり暗黙的グリフ アテンション (SIGA) を提案します。
SIGA は、共同で自己管理されたテキスト セグメンテーションと暗黙のアテンション アラインメントによってテキスト イメージのグリフ構造を描写します。これは、追加の文字レベルの注釈なしでアテンションの正確性を改善するための監視として機能します。
実験結果は、SIGA が以前の注意ベースの STR メソッドよりも一貫して大幅に優れたパフォーマンスを発揮することを示しています。これは、公開されているコンテキスト ベンチマークと私たちが提供したコンテキストレス ベンチマークでの注意の正確性と最終的な認識パフォーマンスの両方の点でです。

要約(オリジナル)

The attention mechanism has become the de facto module in scene text recognition (STR) methods, due to its capability of extracting character-level representations. These methods can be summarized into implicit attention based and supervised attention based, depended on how the attention is computed, i.e., implicit attention and supervised attention are learned from sequence-level text annotations and character-level bounding box annotations, respectively. Implicit attention, as it may extract coarse or even incorrect spatial regions as character attention, is prone to suffering from an alignment-drifted issue. Supervised attention can alleviate the above issue, but it is category-specific, which requires extra laborious character-level bounding box annotations and would be memory-intensive when the number of character categories is large. To address the aforementioned issues, we propose a novel attention mechanism for STR, self-supervised implicit glyph attention (SIGA). SIGA delineates the glyph structures of text images by jointly self-supervised text segmentation and implicit attention alignment, which serve as the supervision to improve attention correctness without extra character-level annotations. Experimental results demonstrate that SIGA performs consistently and significantly better than previous attention-based STR methods, in terms of both attention correctness and final recognition performance on publicly available context benchmarks and our contributed contextless benchmarks.

arxiv情報

著者 Tongkun Guan,Chaochen Gu,Jingzheng Tu,Xue Yang,Qi Feng,Yudi Zhao,Wei Shen
発行日 2022-08-16 11:59:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク