VIPTR: A Vision Permutable Extractor for Fast and Efficient Scene Text Recognition

要約

シーン テキスト認識 (STR) は、自然のシーンの画像内のテキストを認識するという難しいタスクです。
STR の現在の最先端モデルは高いパフォーマンスを示しますが、ビジュアル エンコーダーとシーケンス デコーダーで構成されるハイブリッド アーキテクチャに依存しているため、一般に推論効率が低いという問題があります。
この研究では、高速かつ効率的なシーン テキスト認識 (VIPTR) のための VIsion Permutable Extractor を提案します。これは、STR の領域における高性能と迅速な推論速度の間の優れたバランスを実現します。
具体的には、VIPTR は、従来のシーケンス デコーダーを回避しながら、複数のセルフ アテンション レイヤーを特徴とするピラミッド構造の視覚的セマンティック エクストラクターを活用します。
この設計の選択により、さまざまなサイズの入力を処理できる軽量で効率的なモデルが実現します。
中国語と英語の両方のシーンテキスト認識に関するさまざまな標準データセットに関する広範な実験結果により、VIPTR の優位性が検証されています。
特に、VIPTR-T (Tiny) バリアントは、他の軽量モデルと同等の非常に競争力のある精度を提供し、SOTA 推論速度を達成します。
一方、VIPTR-L (Large) バリアントは、低いパラメーター数と良好な推論速度を維持しながら、より高い認識精度を実現します。
私たちが提案する方法は、STR の課題に対する魅力的なソリューションを提供し、高精度と効率性を融合し、高速で信頼性の高いテキスト認識を必要とする現実世界のアプリケーションに大きな利益をもたらします。
コードは https://github.com/cxfyxl/VIPTR で公開されています。

要約(オリジナル)

Scene Text Recognition (STR) is a challenging task that involves recognizing text within images of natural scenes. Although current state-of-the-art models for STR exhibit high performance, they typically suffer from low inference efficiency due to their reliance on hybrid architectures comprised of visual encoders and sequence decoders. In this work, we propose the VIsion Permutable extractor for fast and efficient scene Text Recognition (VIPTR), which achieves an impressive balance between high performance and rapid inference speeds in the domain of STR. Specifically, VIPTR leverages a visual-semantic extractor with a pyramid structure, characterized by multiple self-attention layers, while eschewing the traditional sequence decoder. This design choice results in a lightweight and efficient model capable of handling inputs of varying sizes. Extensive experimental results on various standard datasets for both Chinese and English scene text recognition validate the superiority of VIPTR. Notably, the VIPTR-T (Tiny) variant delivers highly competitive accuracy on par with other lightweight models and achieves SOTA inference speeds. Meanwhile, the VIPTR-L (Large) variant attains greater recognition accuracy, while maintaining a low parameter count and favorable inference speed. Our proposed method provides a compelling solution for the STR challenge, which blends high accuracy with efficiency and greatly benefits real-world applications requiring fast and reliable text recognition. The code is publicly available at https://github.com/cxfyxl/VIPTR.

arxiv情報

著者 Xianfu Cheng,Weixiao Zhou,Xiang Li,Xiaoming Chen,Jian Yang,Tongliang Li,Zhoujun Li
発行日 2024-01-19 02:31:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク