要約
手書きのテキスト認識(HTR)の従来の機械学習モデル(HTR)は、監督されたトレーニングに依存しており、広範な手動注釈が必要であり、レイアウトとテキスト処理の分離によりエラーが発生することがよくあります。
対照的に、マルチモーダル大手言語モデル(MLLM)は、モデル固有のトレーニングを必要とせずに、多様な手書きスタイルを認識するための一般的なアプローチを提供します。
この調査では、Transkribusモデルに対してさまざまな独自およびオープンソースLLMをベンチマークし、英語、フランス語、ドイツ語、イタリア語で書かれた最新および歴史的データセットの両方でパフォーマンスを評価します。
さらに、以前に生成された出力を自律的に修正するモデルの能力のテストに重点が置かれています。
調査結果は、独自のモデル、特にクロード3.5ソネットが、ゼロショット設定でオープンソースの代替品を上回ることを示しています。
MLLMは、現代の手書きを認識する上で優れた結果を達成し、トレーニング前のデータセット構成のために英語の好みを示します。
Transkribusとの比較は、どちらのアプローチにも一貫した利点がないことを示しています。
さらに、LLMSは、ゼロショット転写のエラーを自律的に修正する限られた能力を示しています。
要約(オリジナル)
Traditional machine learning models for Handwritten Text Recognition (HTR) rely on supervised training, requiring extensive manual annotations, and often produce errors due to the separation between layout and text processing. In contrast, Multimodal Large Language Models (MLLMs) offer a general approach to recognizing diverse handwriting styles without the need for model-specific training. The study benchmarks various proprietary and open-source LLMs against Transkribus models, evaluating their performance on both modern and historical datasets written in English, French, German, and Italian. In addition, emphasis is placed on testing the models’ ability to autonomously correct previously generated outputs. Findings indicate that proprietary models, especially Claude 3.5 Sonnet, outperform open-source alternatives in zero-shot settings. MLLMs achieve excellent results in recognizing modern handwriting and exhibit a preference for the English language due to their pre-training dataset composition. Comparisons with Transkribus show no consistent advantage for either approach. Moreover, LLMs demonstrate limited ability to autonomously correct errors in zero-shot transcriptions.
arxiv情報
著者 | Giorgia Crosilla,Lukas Klic,Giovanni Colavizza |
発行日 | 2025-03-20 15:49:10+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google