要約
を紹介します。(Vision and Spatially-aware Text Analysis OCR) は、テキスト検出と認識を単一の生成モデル内に統合した軽量アーキテクチャです。テキスト認識とテキスト検出のために、専用のパラメータを持つ別々のブランチを必要とする従来の手法とは異なり、我々のアプローチは、Transformerデコーダを活用し、統一されたブランチでテキストの転写とその空間座標を順次生成する。VISTA-OCRは、エンコーダ-デコーダアーキテクチャに基づき、視覚的特徴抽出フェーズから始まり、マルチモーダルなトークン生成を伴うマルチタスク学習へと段階的に学習される。VISTA-OCRの能力を向上させるために、バウンディングボックス注釈と合成サンプルで強化された実世界のサンプルから構成される新しいデータセットを構築した。最近のVision Large Language Models (VLLM)は、これらのタスクを効率的に実行できるが、計算コストが高いため、実用的な展開の障壁となっている。これに対して、我々のVISTA$_{text{omni}}$変種は、わずか150Mのパラメータで、プロンプトにより対話的に、手書き文書と印刷文書の両方を処理する。複数のデータセットを用いた広範な実験により、VISTA-OCRは、標準的なOCRタスクにおいて、最先端の特殊化モデルと比較して優れた性能を達成する一方、より高度なOCRアプリケーションに強い可能性を示し、対話型OCRシステムに対するニーズの高まりに対応することが実証された。VISTA-OCRのすべてのコードと注釈は、採用された時点で一般公開されます。
要約(オリジナル)
We introduce \textbf{VISTA-OCR} (Vision and Spatially-aware Text Analysis OCR), a lightweight architecture that unifies text detection and recognition within a single generative model. Unlike conventional methods that require separate branches with dedicated parameters for text recognition and detection, our approach leverages a Transformer decoder to sequentially generate text transcriptions and their spatial coordinates in a unified branch. Built on an encoder-decoder architecture, VISTA-OCR is progressively trained, starting with the visual feature extraction phase, followed by multitask learning with multimodal token generation. To address the increasing demand for versatile OCR systems capable of advanced tasks, such as content-based text localization \ref{content_based_localization}, we introduce new prompt-controllable OCR tasks during pre-training.To enhance the model’s capabilities, we built a new dataset composed of real-world examples enriched with bounding box annotations and synthetic samples. Although recent Vision Large Language Models (VLLMs) can efficiently perform these tasks, their high computational cost remains a barrier for practical deployment. In contrast, our VISTA$_{\text{omni}}$ variant processes both handwritten and printed documents with only 150M parameters, interactively, by prompting. Extensive experiments on multiple datasets demonstrate that VISTA-OCR achieves better performance compared to state-of-the-art specialized models on standard OCR tasks while showing strong potential for more sophisticated OCR applications, addressing the growing need for interactive OCR systems. All code and annotations for VISTA-OCR will be made publicly available upon acceptance.
arxiv情報
著者 | Laziz Hamdi,Amine Tamasna,Pascal Boisson,Thierry Paquet |
発行日 | 2025-04-04 17:39:53+00:00 |
arxivサイト | arxiv_id(pdf) |