HATFormer: Historic Handwritten Arabic Text Recognition with Transformers

要約

アラビア語の手書きテキスト認識(HTR)は、多様な書き方やアラビア文字固有の特徴のため、特に歴史的なテキストでは困難である。さらに、アラビア語の手書き文字データセットは英語のデータセットに比べて小さいため、一般化可能なアラビア語のHTRモデルの学習が困難である。このような課題に対処するため、我々はHATFormerを提案する。HATFormerは、最先端の英語HTRモデルをベースにした、変換器ベースのエンコーダ・デコーダ・アーキテクチャである。変換器の注意メカニズムを活用することで、HATFormer は空間的な文脈情報を捕捉し、草書体の区別、視覚的表現の分解、および発音区分の識別を通じて、アラビア文字の本質的な課題に対処する。歴史的な手書きアラビア文字用にカスタマイズされたHATFormerには、効果的なViT情報の前処理のための画像プロセッサ、コンパクトなアラビア語テキスト表現のためのテキスト・トークナイザ、および限られた量の歴史的なアラビア語の手書きデータを考慮した学習パイプラインが含まれています。HATFormerは、公開されている最大の歴史的手書きアラビア語データセットで8.6%の文字誤り率(CER)を達成し、文献にある最良のベースラインよりも51%向上しています。HATFormerはまた、非歴史的な最大の私的データセットでも4.2%の同等のCERを達成している。我々の研究は、英語のHTR手法を、言語特有の複雑な課題を抱える低リソース言語に適応させることの実現可能性を示し、文書のデジタル化、情報検索、文化保存の進歩に貢献するものである。

要約(オリジナル)

Arabic handwritten text recognition (HTR) is challenging, especially for historical texts, due to diverse writing styles and the intrinsic features of Arabic script. Additionally, Arabic handwriting datasets are smaller compared to English ones, making it difficult to train generalizable Arabic HTR models. To address these challenges, we propose HATFormer, a transformer-based encoder-decoder architecture that builds on a state-of-the-art English HTR model. By leveraging the transformer’s attention mechanism, HATFormer captures spatial contextual information to address the intrinsic challenges of Arabic script through differentiating cursive characters, decomposing visual representations, and identifying diacritics. Our customization to historical handwritten Arabic includes an image processor for effective ViT information preprocessing, a text tokenizer for compact Arabic text representation, and a training pipeline that accounts for a limited amount of historic Arabic handwriting data. HATFormer achieves a character error rate (CER) of 8.6% on the largest public historical handwritten Arabic dataset, with a 51% improvement over the best baseline in the literature. HATFormer also attains a comparable CER of 4.2% on the largest private non-historical dataset. Our work demonstrates the feasibility of adapting an English HTR method to a low-resource language with complex, language-specific challenges, contributing to advancements in document digitization, information retrieval, and cultural preservation.

arxiv情報

著者 Adrian Chan,Anupam Mijar,Mehreen Saeed,Chau-Wai Wong,Akram Khater
発行日 2025-04-03 17:56:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.CV, cs.LG パーマリンク