要約
情景テキスト認識(STR)は、コンピュータビジョンにおける長年の活発な研究課題である。この困難な問題に取り組むため、数多くの革新的な手法が次々と提案されており、最近ではSTRモデルに言語的知識を取り入れることが顕著になってきている。本研究では、まず、Vision Transformer (ViT) の最近の進歩からインスピレーションを得て、概念的にシンプルかつ強力なビジョンSTRモデルを構築する。このモデルは、ViTを基盤としており、純粋なビジョンモデルや言語拡張手法など、シーンテキスト認識に関するこれまでの最先端モデルより優れた性能を発揮する。すなわち、従来の文字レベル表現に加えて、自然言語処理で広く用いられているサブワード表現(BPEとWordPiece)を出力空間に導入し、独立した言語モデル(LM)を採用しない。その結果、MGP-STRはSTRの性能をさらに向上させることに成功した。具体的には、標準的なベンチマークにおいて平均93.35%の認識精度を達成しました。近日中にコードを公開する予定です。
要約(オリジナル)
Scene text recognition (STR) has been an active research topic in computer vision for years. To tackle this challenging problem, numerous innovative methods have been successively proposed and incorporating linguistic knowledge into STR models has recently become a prominent trend. In this work, we first draw inspiration from the recent progress in Vision Transformer (ViT) to construct a conceptually simple yet powerful vision STR model, which is built upon ViT and outperforms previous state-of-the-art models for scene text recognition, including both pure vision models and language-augmented methods. To integrate linguistic knowledge, we further propose a Multi-Granularity Prediction strategy to inject information from the language modality into the model in an implicit way, i.e. , subword representations (BPE and WordPiece) widely-used in NLP are introduced into the output space, in addition to the conventional character level representation, while no independent language model (LM) is adopted. The resultant algorithm (termed MGP-STR) is able to push the performance envelop of STR to an even higher level. Specifically, it achieves an average recognition accuracy of 93.35% on standard benchmarks. Code will be released soon.
arxiv情報
| 著者 | Peng Wang,Cheng Da,Cong Yao |
| 発行日 | 2022-09-08 06:43:59+00:00 |
| arxivサイト | arxiv_id(pdf) |