Efficient and Accurate Scene Text Recognition with Cascaded-Transformers

要約

近年、テキストデコーダーを備えたVision Transformerは、長距離依存関係と高学習能力とのコンテキスト関係をキャプチャする能力により、シーンテキスト認識(STR)で顕著なパフォーマンスを実証しています。
ただし、これらのモデルの計算およびメモリの要求は重要であり、リソース制約のあるアプリケーションでの展開を制限しています。
この課題に対処するために、効率的で正確なSTRシステムを提案します。
具体的には、カスケード変換者の構造を導入することにより、エンコーダーモデルの効率を改善することに焦点を当てています。
この構造は、エンコードステップ中に視覚トークンのサイズを徐々に削減し、冗長トークンを効果的に排除し、計算コストを削減します。
実験結果は、STRシステムが最先端のベースラインに匹敵するパフォーマンスを達成し、計算要件を大幅に減少させることを確認しています。
特に、大型モデルの場合、精度は同じままで、92.77〜92.68であり、計算の複雑さは構造とともにほぼ半分になります。

要約(オリジナル)

In recent years, vision transformers with text decoder have demonstrated remarkable performance on Scene Text Recognition (STR) due to their ability to capture long-range dependencies and contextual relationships with high learning capacity. However, the computational and memory demands of these models are significant, limiting their deployment in resource-constrained applications. To address this challenge, we propose an efficient and accurate STR system. Specifically, we focus on improving the efficiency of encoder models by introducing a cascaded-transformers structure. This structure progressively reduces the vision token size during the encoding step, effectively eliminating redundant tokens and reducing computational cost. Our experimental results confirm that our STR system achieves comparable performance to state-of-the-art baselines while substantially decreasing computational requirements. In particular, for large-models, the accuracy remains same, 92.77 to 92.68, while computational complexity is almost halved with our structure.

arxiv情報

著者 Savas Ozkan,Andrea Maracani,Hyowon Kim,Sijun Cho,Eunchung Noh,Jeongwon Min,Jung Min Cho,Mete Ozay
発行日 2025-03-24 16:58:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク