要約
手書きの写本としてのみ存在する歴史的および文化的文書が膨大にあります。
同時に、スクリプトやさまざまな手書きスタイルにまたがって OCR を実行することは、印刷物のデジタル化プロセスに比べて非常に困難な問題であることが判明しています。
最近の Transformer ベースのモデルは比較的優れたパフォーマンスを達成していますが、手動で転写されたトレーニング データに大きく依存しており、ライター間で一般化することが困難です。
GPT-4v や Gemini などのマルチモーダル LLM は、ショット プロンプトをほとんど行わずに OCR およびコンピュータ ビジョン タスクを実行する際の有効性を実証しています。
この論文では、Gemini によって生成された手書き文書の転写の精度を、現在の最先端の Transformer ベースの方法と比較して評価します。
キーワード: 光学式文字認識、マルチモーダル言語モデル、文化保存、大量デジタル化、手書き認識
要約(オリジナル)
There is an immense quantity of historical and cultural documentation that exists only as handwritten manuscripts. At the same time, performing OCR across scripts and different handwriting styles has proven to be an enormously difficult problem relative to the process of digitizing print. While recent Transformer based models have achieved relatively strong performance, they rely heavily on manually transcribed training data and have difficulty generalizing across writers. Multimodal LLM, such as GPT-4v and Gemini, have demonstrated effectiveness in performing OCR and computer vision tasks with few shot prompting. In this paper, I evaluate the accuracy of handwritten document transcriptions generated by Gemini against the current state of the art Transformer based methods. Keywords: Optical Character Recognition, Multimodal Language Models, Cultural Preservation, Mass digitization, Handwriting Recognitio
arxiv情報
著者 | Lucian Li |
発行日 | 2024-10-31 15:32:14+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google