FastTextSpotter: A High-Efficiency Transformer for Multilingual Scene Text Spotting

要約

構造化された環境と非構造化されていない環境の両方でのシーンテキストの急増は、光学文字認識(OCR)に大きな課題をもたらし、より効率的で堅牢なテキストスポッティングソリューションを必要とします。
このペーパーでは、Swin Transformer Visual Backboneを変圧器エンコーダデコーダーアーキテクチャと統合するフレームワークであるFastTextspotterを紹介します。
FastTextspotterは、通常のテキストのICDAR2015や任意の形のテキストのTotalTextを含む複数のデータセットで検証されており、現在の最先端モデルに対してベンチマークされています。
我々の結果は、FastTextspotterが多言語シーンテキスト(英語とベトナム語)を検出および認識する際に優れた精度を達成するだけでなく、モデル効率を向上させ、それによってフィールドで新しいベンチマークを設定することを示しています。
この研究では、多様な現実世界の設定でアプリケーションの適応性と速度を改善する上で高度な変圧器アーキテクチャの可能性を強調しています。
データセット、コード、および事前に訓練されたモデルは、GitHubでリリースされています。

要約(オリジナル)

The proliferation of scene text in both structured and unstructured environments presents significant challenges in optical character recognition (OCR), necessitating more efficient and robust text spotting solutions. This paper presents FastTextSpotter, a framework that integrates a Swin Transformer visual backbone with a Transformer Encoder-Decoder architecture, enhanced by a novel, faster self-attention unit, SAC2, to improve processing speeds while maintaining accuracy. FastTextSpotter has been validated across multiple datasets, including ICDAR2015 for regular texts and CTW1500 and TotalText for arbitrary-shaped texts, benchmarking against current state-of-the-art models. Our results indicate that FastTextSpotter not only achieves superior accuracy in detecting and recognizing multilingual scene text (English and Vietnamese) but also improves model efficiency, thereby setting new benchmarks in the field. This study underscores the potential of advanced transformer architectures in improving the adaptability and speed of text spotting applications in diverse real-world settings. The dataset, code, and pre-trained models have been released in our Github.

arxiv情報

著者 Alloy Das,Sanket Biswas,Umapada Pal,Josep Lladós,Saumik Bhattacharya
発行日 2025-03-12 14:56:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク