Linguistic More: Taking a Further Step toward Efficient and Accurate Scene Text Recognition

要約

タイトル:Linguistic More:効率的かつ正確なシーンテキスト識別への更なる一歩

要約:
– シーンテキスト識別(STR)タスクにおいて、ビジョンモデルはそのシンプルさと効率性から注目を集めている。
– しかしながら、最近のビジョンモデルは言語知識や情報を感知しないため、2つの問題に直面している。
– (1)ピュアなビジョンに基づくクエリは注意のドリフトを引き起こし、識別率の低下を引き起こすことが多く、本論文では言語に対する感度の不足によるドリフト(LID)問題としてまとめられている。
– (2)視覚的特徴は、ビジョン不足の場合(例えば、オクルージョンなど)、識別において最適ではない。
– これらの問題に対処するために、言語能力を利用したビジョンモデルであるLinguistic Perception Vision model(LPV)を提案する。
– LID問題を軽減するために、カスケードポジションアテンション(CPA)メカニズムを導入して、ステップごとの最適化と言語情報のマイニングにより高品質で正確なアテンションマップを得る。
– さらに、グローバル言語再構築モジュール(GLRM)を提案し、視覚的空間において言語情報を知覚することで視覚的特徴の表現を改善し、カスケードプロセス中に視覚的特徴を意味的に豊かなものに変換する。
– 以前の方法とは異なり、当該方法は低複雑性を維持しながらSOTAの結果を得る(8.11Mパラメータしか使用せずに、92.4%の精度を達成)。
– コードは、https://github.com/CyrilSterling/LPVで利用可能である。

要約(オリジナル)

Vision model have gained increasing attention due to their simplicity and efficiency in Scene Text Recognition (STR) task. However, due to lacking the perception of linguistic knowledge and information, recent vision models suffer from two problems: (1) the pure vision-based query results in attention drift, which usually causes poor recognition and is summarized as linguistic insensitive drift (LID) problem in this paper. (2) the visual feature is suboptimal for the recognition in some vision-missing cases (e.g. occlusion, etc.). To address these issues, we propose a $\textbf{L}$inguistic $\textbf{P}$erception $\textbf{V}$ision model (LPV), which explores the linguistic capability of vision model for accurate text recognition. To alleviate the LID problem, we introduce a Cascade Position Attention (CPA) mechanism that obtains high-quality and accurate attention maps through step-wise optimization and linguistic information mining. Furthermore, a Global Linguistic Reconstruction Module (GLRM) is proposed to improve the representation of visual features by perceiving the linguistic information in the visual space, which gradually converts visual features into semantically rich ones during the cascade process. Different from previous methods, our method obtains SOTA results while keeping low complexity (92.4% accuracy with only 8.11M parameters). Code is available at $\href{https://github.com/CyrilSterling/LPV}{https://github.com/CyrilSterling/LPV}$.

arxiv情報

著者 Boqiang Zhang,Hongtao Xie,Yuxin Wang,Jianjun Xu,Yongdong Zhang
発行日 2023-05-09 02:52:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV パーマリンク