Self-Supervised Pre-training with Symmetric Superimposition Modeling for Scene Text Recognition

要約

テキスト認識では、自己教師ありの事前トレーニングが、膨大な注釈付き実データへの依存を減らすための優れたソリューションとして浮上します。
これまでの研究は主に、マスク画像モデリングやシーケンス対比学習を活用した局所的な視覚表現に焦点を当てていました。
ただし、テキストを認識するために重要な、テキスト画像内の言語情報のモデリングは省略されています。
視覚空間における局所的な文字の特徴と言語情報を同時に捕捉するために、我々は対称重ね合わせモデリング(SSM)を提案します。
SSM の目的は、対称的に重ね合わされた入力から方向固有のピクセル信号と特徴信号を再構築することです。
具体的には、元の画像とその反転ビューを追加して、対称的に重ね合わされた入力を作成します。
ピクセル レベルで、元の画像と反転画像を再構築して、文字の形状とテクスチャ レベルの言語コンテキストをキャプチャします。
特徴レベルでは、同じ元の画像と反転画像の特徴を異なる拡張で再構築し、意味レベルの言語文脈と局所的な文字の識別をモデル化します。
私たちのデザインでは、文字の形と言語規則を破壊します。
その結果、二重レベルの再構成により、視覚的な質感と特徴の意味論の観点から文字の形状と言語情報を理解することが容易になります。
さまざまなテキスト認識ベンチマークの実験では、Union14M ベンチマークで平均 4.1% のパフォーマンス向上と 86.6% の新しい最先端の平均単語精度を達成し、SSM の有効性と汎用性を実証しました。

要約(オリジナル)

In text recognition, self-supervised pre-training emerges as a good solution to reduce dependence on expansive annotated real data. Previous studies primarily focus on local visual representation by leveraging mask image modeling or sequence contrastive learning. However, they omit modeling the linguistic information in text images, which is crucial for recognizing text. To simultaneously capture local character features and linguistic information in visual space, we propose Symmetric Superimposition Modeling (SSM). The objective of SSM is to reconstruct the direction-specific pixel and feature signals from the symmetrically superimposed input. Specifically, we add the original image with its inverted views to create the symmetrically superimposed inputs. At the pixel level, we reconstruct the original and inverted images to capture character shapes and texture-level linguistic context. At the feature level, we reconstruct the feature of the same original image and inverted image with different augmentations to model the semantic-level linguistic context and the local character discrimination. In our design, we disrupt the character shape and linguistic rules. Consequently, the dual-level reconstruction facilitates understanding character shapes and linguistic information from the perspective of visual texture and feature semantics. Experiments on various text recognition benchmarks demonstrate the effectiveness and generality of SSM, with 4.1% average performance gains and 86.6% new state-of-the-art average word accuracy on Union14M benchmarks.

arxiv情報

著者 Zuan Gao,Yuxin Wang,Yadong Qu,Boqiang Zhang,Zixiao Wang,Jianjun Xu,Hongtao Xie
発行日 2024-05-09 15:23:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク