Masked Vision-Language Transformers for Scene Text Recognition

要約

情景テキスト認識(STR)は、実世界の様々なシーンにあるテキストをコンピュータが認識し、読み取ることを可能にする。最近のSTRモデルでは、視覚的な手がかりに加えて言語的な情報を考慮することが有効である。本論文では、視覚的な手がかりに加え、言語的な手がかりも考慮した新しい視覚・言語変換器(MVLT: Masked Vision-Language Transformers)を提案する。MVLTのエンコーダはVision Transformerであり、デコーダはMulti-modal Transformerである。MVLTは2段階で学習される。第1段階では、マスキング戦略に基づいてSTRに合わせた事前学習法を設計し、第2段階では、モデルを微調整し、反復補正法を採用して性能を向上させる。MVLTは、いくつかのベンチマークにおいて、最新のSTRモデルと比較して優れた結果を得ることができました。我々のコードとモデルは、https://github.com/onealwj/MVLT で公開されています。

要約(オリジナル)

Scene text recognition (STR) enables computers to recognize and read the text in various real-world scenes. Recent STR models benefit from taking linguistic information in addition to visual cues into consideration. We propose a novel Masked Vision-Language Transformers (MVLT) to capture both the explicit and the implicit linguistic information. Our encoder is a Vision Transformer, and our decoder is a multi-modal Transformer. MVLT is trained in two stages: in the first stage, we design a STR-tailored pretraining method based on a masking strategy; in the second stage, we fine-tune our model and adopt an iterative correction method to improve the performance. MVLT attains superior results compared to state-of-the-art STR models on several benchmarks. Our code and model are available at https://github.com/onealwj/MVLT.

arxiv情報

著者 Jie Wu,Ying Peng,Shengming Zhang,Weigang Qi,Jian Zhang
発行日 2022-11-09 10:28:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク