Deciphering the Underserved: Benchmarking LLM OCR for Low-Resource Scripts

要約

この研究では、英語をベンチマークとして、ウルドゥー語、アルバニア語、タジク語などの低リソース文字における光学式文字認識 (OCR) に対する大規模言語モデル (LLM)、特に GPT-4o の可能性を調査します。
この研究では、テキストの長さ、フォント サイズ、背景色、ぼかしの制御された変動を組み込んだ 2,520 枚の画像からなる細心の注意を払って厳選されたデータセットを使用して、現実世界のさまざまな課題をシミュレートしています。
結果は、特に言語的に複雑なスクリプトの場合、ゼロショット LLM ベースの OCR の限界を強調し、注釈付きのデータセットと微調整されたモデルの必要性を強調しています。
この取り組みは、テキストのデジタル化におけるアクセシビリティのギャップに対処する緊急性を強調し、十分なサービスが提供されていない言語に対する包括的で堅牢な OCR ソリューションへの道を切り開きます。

要約(オリジナル)

This study investigates the potential of Large Language Models (LLMs), particularly GPT-4o, for Optical Character Recognition (OCR) in low-resource scripts such as Urdu, Albanian, and Tajik, with English serving as a benchmark. Using a meticulously curated dataset of 2,520 images incorporating controlled variations in text length, font size, background color, and blur, the research simulates diverse real-world challenges. Results emphasize the limitations of zero-shot LLM-based OCR, particularly for linguistically complex scripts, highlighting the need for annotated datasets and fine-tuned models. This work underscores the urgency of addressing accessibility gaps in text digitization, paving the way for inclusive and robust OCR solutions for underserved languages.

arxiv情報

著者 Muhammad Abdullah Sohail,Salaar Masood,Hamza Iqbal
発行日 2024-12-20 18:05:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, eess.IV パーマリンク