マルチモーダル モデルは、自由形式のテキストガイドによるトレーニングにより、きめの細かい視覚コンテンツを理解する能力を呼び起こすため、視覚認識タスクにおいて魅力的なパフォーマンスを示しています。
ただし、自然画像とテキスト画像の構成上の違いにより、現在のモデルをシーン テキスト認識 (STR) に簡単に適用することはできません。
我々は、命令学習問題として STR を定式化し、文字の頻度や位置などの文字属性を予測することでテキスト画像を理解する、新しい命令ガイド付きシーンテキスト認識 (IGTR) パラダイムを提案します。IGTR は最初に $\left \langle 条件を考案します。
question,answer\right \rangle$ 命令の 3 つ組で、キャラクター属性の豊富で多様な説明を提供します。
質問応答を通じてこれらの属性を効果的に学習するために、IGTR は軽量命令エンコーダー、クロスモーダル機能融合モジュール、および微妙なテキスト画像の理解を導くマルチタスク アンサーヘッドを開発しています。
さらに、IGTR は異なる命令を使用するだけで異なる認識パイプラインを実現し、現在の手法とは大きく異なる文字理解に基づくテキスト推論パラダイムを可能にします。
英語と中国語のベンチマークでの実験では、IGTR が小さいモデル サイズと高速な推論速度を維持しながら、既存のモデルを大幅に上回っていることが示されています。
さらに、IGTR は、命令のサンプリングを調整することで、これまでの課題であった、めったに出現しない文字や形態的に類似した文字の認識に取り組むエレガントな方法を提供します。
コード: https://github.com/Topdu/OpenOCR。
Multi-modal models have shown appealing performance in visual recognition tasks, as free-form text-guided training evokes the ability to understand fine-grained visual content. However, current models cannot be trivially applied to scene text recognition (STR) due to the compositional difference between natural and text images. We propose a novel instruction-guided scene text recognition (IGTR) paradigm that formulates STR as an instruction learning problem and understands text images by predicting character attributes, e.g., character frequency, position, etc. IGTR first devises $\left \langle condition,question,answer\right \rangle$ instruction triplets, providing rich and diverse descriptions of character attributes. To effectively learn these attributes through question-answering, IGTR develops a lightweight instruction encoder, a cross-modal feature fusion module and a multi-task answer head, which guides nuanced text image understanding. Furthermore, IGTR realizes different recognition pipelines simply by using different instructions, enabling a character-understanding-based text reasoning paradigm that differs from current methods considerably. Experiments on English and Chinese benchmarks show that IGTR outperforms existing models by significant margins, while maintaining a small model size and fast inference speed. Moreover, by adjusting the sampling of instructions, IGTR offers an elegant way to tackle the recognition of rarely appearing and morphologically similar characters, which were previous challenges. Code: https://github.com/Topdu/OpenOCR.
著者 | Yongkun Du,Zhineng Chen,Yuchen Su,Caiyan Jia,Yu-Gang Jiang |
発行日 | 2025-01-01 15:06:12+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google