Qalam : A Multimodal LLM for Arabic Optical Character and Handwriting Recognition

要約

アラビア語の光学式文字認識 (OCR) と手書き認識 (HWR) は、アラビア文字の筆記体と状況依存の性質により、独特の課題を引き起こします。
この研究では、SwinV2 エンコーダと RoBERTa デコーダ アーキテクチャに基づいて構築された、アラビア語 OCR および HWR 用に設計された新しい基盤モデルである Qalam を紹介します。
私たちのモデルは既存の手法を大幅に上回り、HWR タスクではわずか 0.80%、OCR タスクでは 1.18% のワード エラー率 (WER) を達成しました。
私たちは、アラビア語写本からの 450 万以上の画像や 60,000 の画像とテキストのペアで構成される合成データセットを含む、多様なデータセットで Qalam をトレーニングします。
特に、Qalam は、アラビア文字の重要な機能であるアラビア語の発音記号の例外的な処理を示しています。
さらに、高解像度入力を処理する優れた能力を示し、現在の OCR システムに共通する制限に対処します。
これらの進歩は、アラビア文字認識の主要なソリューションとしての Qalam の可能性を強調し、精度と効率性において大幅な飛躍をもたらします。

要約(オリジナル)

Arabic Optical Character Recognition (OCR) and Handwriting Recognition (HWR) pose unique challenges due to the cursive and context-sensitive nature of the Arabic script. This study introduces Qalam, a novel foundation model designed for Arabic OCR and HWR, built on a SwinV2 encoder and RoBERTa decoder architecture. Our model significantly outperforms existing methods, achieving a Word Error Rate (WER) of just 0.80% in HWR tasks and 1.18% in OCR tasks. We train Qalam on a diverse dataset, including over 4.5 million images from Arabic manuscripts and a synthetic dataset comprising 60k image-text pairs. Notably, Qalam demonstrates exceptional handling of Arabic diacritics, a critical feature in Arabic scripts. Furthermore, it shows a remarkable ability to process high-resolution inputs, addressing a common limitation in current OCR systems. These advancements underscore Qalam’s potential as a leading solution for Arabic script recognition, offering a significant leap in accuracy and efficiency.

arxiv情報

著者 Gagan Bhatia,El Moatez Billah Nagoudi,Fakhraddin Alwajih,Muhammad Abdul-Mageed
発行日 2024-07-18 14:31:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV パーマリンク