Spanish TrOCR: Leveraging Transfer Learning for Language Adaptation


この研究では、TrOCR アーキテクチャのスペイン語への転移学習機能を調査します。
TrOCR は、英語のベンチマークにおける最先端のパフォーマンスで知られる、トランスフォーマーベースの光学式文字認識 (OCR) モデルです。
多言語テキスト認識への適応性に関する主張に基づいて、モデルを新しい言語に適応させるための 2 つの異なるアプローチを調査します。英語の TrOCR エンコーダーを言語固有のデコーダーと統合し、この特定の言語でモデルをトレーニングすることと、英語ベースの TrOCR を微調整することです。
公開されているデータセットが不足しているため、ビジュアル リッチ ドキュメント (VRD) に焦点を当てて採用されているさまざまな画像生成方法の包括的なベンチマークとともに、あらゆる言語で OCR データセットを作成するためのリソース効率の高いパイプラインを紹介します。
さらに、スペイン語に対する 2 つのアプローチの比較分析を提供し、スペイン語で英語 TrOCR を微調整すると、固定データセット サイズの言語固有のデコーダーよりも優れた認識が得られることを示しました。
公開されている印刷データセットで文字および単語のエラー率メトリクスを使用してモデルを評価し、他のオープンソースおよびクラウド OCR スペイン語モデルとパフォーマンスを比較します。
私たちが知る限り、これらのリソースはスペイン語の OCR に最適なオープンソース モデルです。
スペイン語の TrOCR モデルは HuggingFace [20] で公開されており、データセットを生成するコードは Github [25] で入手できます。


This study explores the transfer learning capabilities of the TrOCR architecture to Spanish. TrOCR is a transformer-based Optical Character Recognition (OCR) model renowned for its state-of-the-art performance in English benchmarks. Inspired by Li et al. assertion regarding its adaptability to multilingual text recognition, we investigate two distinct approaches to adapt the model to a new language: integrating an English TrOCR encoder with a language specific decoder and train the model on this specific language, and fine-tuning the English base TrOCR model on a new language data. Due to the scarcity of publicly available datasets, we present a resource-efficient pipeline for creating OCR datasets in any language, along with a comprehensive benchmark of the different image generation methods employed with a focus on Visual Rich Documents (VRDs). Additionally, we offer a comparative analysis of the two approaches for the Spanish language, demonstrating that fine-tuning the English TrOCR on Spanish yields superior recognition than the language specific decoder for a fixed dataset size. We evaluate our model employing character and word error rate metrics on a public available printed dataset, comparing the performance against other open-source and cloud OCR spanish models. As far as we know, these resources represent the best open-source model for OCR in Spanish. The Spanish TrOCR models are publicly available on HuggingFace [20] and the code to generate the dataset is available on Github [25].


著者 Filipe Lauar,Valentin Laurent
発行日 2024-07-09 15:31:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.AI, cs.CL パーマリンク