要約
このペーパーでは、最近リリースされた大規模マルチモーダル モデル (LMM) である GPT-4V(ision) の光学式文字認識 (OCR) 機能の包括的な評価を示します。
シーンテキスト認識、手書きテキスト認識、手書き数式認識、表構造認識、視覚的に豊富な文書からの情報抽出など、さまざまな OCR タスクにわたってモデルのパフォーマンスを評価します。
評価の結果、GPT-4V はラテン語の内容の認識と理解には優れていますが、多言語のシナリオや複雑なタスクには苦労していることが明らかになりました。
これらの観察に基づいて、特殊な OCR モデルの必要性をさらに深く掘り下げ、GPT-4V などの事前トレーニング済みの汎用 LMM を OCR ダウンストリーム タスクに完全に活用する戦略について検討します。
この研究は、LMM を使用した OCR の将来の研究に重要な参考資料を提供します。
評価パイプラインと結果は、https://github.com/SCUT-DLVCLab/GPT-4V_OCR で入手できます。
要約(オリジナル)
This paper presents a comprehensive evaluation of the Optical Character Recognition (OCR) capabilities of the recently released GPT-4V(ision), a Large Multimodal Model (LMM). We assess the model’s performance across a range of OCR tasks, including scene text recognition, handwritten text recognition, handwritten mathematical expression recognition, table structure recognition, and information extraction from visually-rich document. The evaluation reveals that GPT-4V performs well in recognizing and understanding Latin contents, but struggles with multilingual scenarios and complex tasks. Based on these observations, we delve deeper into the necessity of specialized OCR models and deliberate on the strategies to fully harness the pretrained general LMMs like GPT-4V for OCR downstream tasks. The study offers a critical reference for future research in OCR with LMMs. Evaluation pipeline and results are available at https://github.com/SCUT-DLVCLab/GPT-4V_OCR.
arxiv情報
著者 | Yongxin Shi,Dezhi Peng,Wenhui Liao,Zening Lin,Xinhong Chen,Chongyu Liu,Yuyi Zhang,Lianwen Jin |
発行日 | 2023-10-25 17:38:55+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google