要約
マルチモーダル モデルは、最近、視覚認識タスクにおいて魅力的なパフォーマンスを示しています。これは、自由形式のテキストガイド付きトレーニングが、きめの細かい視覚コンテンツを理解する能力を呼び起こすためです。
ただし、現在のモデルは非効率的であるか、自然画像とテキスト画像の構成の違いにより、簡単にシーン テキスト認識 (STR) にアップグレードすることができません。
我々は、命令学習問題として STR を定式化し、文字の頻度や位置などの文字属性を予測することでテキスト画像を理解する、新しい命令ガイド付きシーンテキスト認識 (IGTR) パラダイムを提案します。IGTR は最初に $\left \langle 条件を考案します。
question,answer\right \rangle$ 命令の 3 つ組で、キャラクター属性の豊富で多様な説明を提供します。
質問応答を通じてこれらの属性を効果的に学習するために、IGTR は、微妙なテキスト画像の理解を導く軽量命令エンコーダー、クロスモーダル機能融合モジュール、およびマルチタスク アンサー ヘッドを開発しています。
さらに、IGTR は異なる命令を使用するだけで異なる認識パイプラインを実現し、現在の手法とは大きく異なる文字理解に基づくテキスト推論パラダイムを可能にします。
英語と中国語のベンチマークでの実験では、IGTR が小さいモデル サイズと効率的な推論速度を維持しながら、既存のモデルを大幅に上回るパフォーマンスを示していることが示されています。
さらに、IGTR は、命令のサンプリングを調整することで、以前の課題であった、めったに出現しない文字と形態的に類似した文字の両方の認識に取り組むエレガントな方法を提供します。
コードは \href{https://github.com/Topdu/OpenOCR}{this http URL} にあります。
要約(オリジナル)
Multi-modal models show appealing performance in visual recognition tasks recently, as free-form text-guided training evokes the ability to understand fine-grained visual content. However, current models are either inefficient or cannot be trivially upgraded to scene text recognition (STR) due to the composition difference between natural and text images. We propose a novel instruction-guided scene text recognition (IGTR) paradigm that formulates STR as an instruction learning problem and understands text images by predicting character attributes, e.g., character frequency, position, etc. IGTR first devises $\left \langle condition,question,answer\right \rangle$ instruction triplets, providing rich and diverse descriptions of character attributes. To effectively learn these attributes through question-answering, IGTR develops lightweight instruction encoder, cross-modal feature fusion module and multi-task answer head, which guides nuanced text image understanding. Furthermore, IGTR realizes different recognition pipelines simply by using different instructions, enabling a character-understanding-based text reasoning paradigm that considerably differs from current methods. Experiments on English and Chinese benchmarks show that IGTR outperforms existing models by significant margins, while maintaining a small model size and efficient inference speed. Moreover, by adjusting the sampling of instructions, IGTR offers an elegant way to tackle the recognition of both rarely appearing and morphologically similar characters, which were previous challenges. Code at \href{https://github.com/Topdu/OpenOCR}{this http URL}.
arxiv情報
著者 | Yongkun Du,Zhineng Chen,Yuchen Su,Caiyan Jia,Yu-Gang Jiang |
発行日 | 2024-07-01 14:06:26+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google