要約
シーンテキスト認識(SCR)は、自然なシーンを切り出した画像中のテキストを読み取るという課題である。従来のSTRでは、畳み込みニューラルネットワーク(CNN)、リカレントニューラルネットワークの順にエンコーダ・デコーダの枠組みでモデルを構築しています。近年では、シーンテキスト画像に顕著な長期依存性を捉えることができるトランスフォーマーアーキテクチャがSTRに広く採用されています。多くの研究者は、CNNとトランスフォーマーのハイブリッドエンコーダーの一部としてトランスフォーマーを利用し、その後、トランスフォーマーデコーダーを利用することが多い。しかし、このような方法では、符号化処理の途中からしか長期依存性を利用することができません。ビジョン変換器(ViT)はこのような依存性を早い段階で捉えることができるが、STRではその利用はほとんど行われていない。本研究では、CNNとトランスフォーマーのハイブリッドモデルを凌駕する単純なベースラインとして、トランスフォーマーのみのモデルの利用を提案する。さらに、2つの改善すべき重要な領域が明らかになった。第一に、最初にデコードされた文字が最も低い予測精度を持つ。第二に、異なるオリジナルのアスペクト比の画像はパッチ解像度に対して異なる反応を示すが、ViTは1つの固定パッチ解像度しか採用していない。そこで、PTIE(Pure Transformer with Integrated Experts)を提案します。PTIEは、複数のパッチ解像度を処理し、元の文字と逆の文字の順序でデコードできる変換器モデルである。一般的に用いられる7つのベンチマークで検証し、20以上の最先端手法と比較した。実験の結果,提案手法はそれらを凌駕し,ほとんどのベンチマークで最先端の結果を得ることができた.
要約(オリジナル)
Scene text recognition (STR) involves the task of reading text in cropped images of natural scenes. Conventional models in STR employ convolutional neural network (CNN) followed by recurrent neural network in an encoder-decoder framework. In recent times, the transformer architecture is being widely adopted in STR as it shows strong capability in capturing long-term dependency which appears to be prominent in scene text images. Many researchers utilized transformer as part of a hybrid CNN-transformer encoder, often followed by a transformer decoder. However, such methods only make use of the long-term dependency mid-way through the encoding process. Although the vision transformer (ViT) is able to capture such dependency at an early stage, its utilization remains largely unexploited in STR. This work proposes the use of a transformer-only model as a simple baseline which outperforms hybrid CNN-transformer models. Furthermore, two key areas for improvement were identified. Firstly, the first decoded character has the lowest prediction accuracy. Secondly, images of different original aspect ratios react differently to the patch resolutions while ViT only employ one fixed patch resolution. To explore these areas, Pure Transformer with Integrated Experts (PTIE) is proposed. PTIE is a transformer model that can process multiple patch resolutions and decode in both the original and reverse character orders. It is examined on 7 commonly used benchmarks and compared with over 20 state-of-the-art methods. The experimental results show that the proposed method outperforms them and obtains state-of-the-art results in most benchmarks.
arxiv情報
著者 | Yew Lee Tan,Adams Wai-kin Kong,Jung-Jae Kim |
発行日 | 2022-11-09 15:26:59+00:00 |
arxivサイト | arxiv_id(pdf) |