Notes on Applicability of GPT-4 to Document Understanding

要約

私たちは、文書理解分野に関して、公的に利用可能なすべての GPT-4 ファミリー モデルの欠落している再現可能な評価を実行します。文書理解分野では、テキストの意味論に加えてテキストの空間配置や視覚的手がかりを理解することが頻繁に必要とされます。
ベンチマーク結果によると、テキストのみのモデルでは満足のいく結果を達成するのは難しいものの、外部 OCR エンジンで認識されたテキストと入力上のドキュメント画像の両方を提供する場合、GPT-4 Vision Turbo は良好なパフォーマンスを発揮します。
評価の後には、テキスト GPT-4 モデルの汚染の可能性を示唆する分析が行われ、長いドキュメントのパフォーマンスが大幅に低下することが示されます。

要約(オリジナル)

We perform a missing, reproducible evaluation of all publicly available GPT-4 family models concerning the Document Understanding field, where it is frequently required to comprehend text spacial arrangement and visual clues in addition to textual semantics. Benchmark results indicate that though it is hard to achieve satisfactory results with text-only models, GPT-4 Vision Turbo performs well when one provides both text recognized by an external OCR engine and document images on the input. Evaluation is followed by analyses that suggest possible contamination of textual GPT-4 models and indicate the significant performance drop for lengthy documents.

arxiv情報

著者 Łukasz Borchmann
発行日 2024-05-28 17:59:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク