KOSMOS-2.5: A Multimodal Literate Model

要約

テキスト中心の画像の自動読み取りは、汎用人工知能 (AGI) の実現に向けた大きな進歩を表しています。
この論文では、テキスト中心の画像を機械で読み取るためのマルチモーダル読み書きモデルである KOSMOS-2.5 を紹介します。
テキスト中心の画像の大規模コーパスで事前トレーニングされた KOSMOS-2.5 は、2 つの異なる、しかし補完的な転写タスクに優れています。(1) 空間認識テキスト ブロックの生成。テキストの各ブロックには画像内の空間座標が割り当てられます。
(2) スタイルと構造の両方をマークダウン形式でキャプチャする構造化テキスト出力を生成します。
この統合されたマルチモーダルな読み書き機能は、共有デコーダー専用の自己回帰 Transformer アーキテクチャとタスク固有のプロンプトによって実現されます。
この基盤に基づいて、文書理解タスク用に KOSMOS-2.5 を微調整し、その結果、KOSMOS-2.5-CHAT という名前の文書理解ジェネラリストが誕生しました。
さらに、さまざまなドメインにわたる 3 億 5,740 万ページの文書ページからなる大規模なコーパスが事前トレーニング用に厳選されました。
私たちは、ドキュメントレベルのテキスト認識と画像からマークダウンへの生成に関して、新しく提案された 2 つのベンチマーク OCREval と MarkdownEval で KOSMOS-2.5 を評価し、GPT-4o に匹敵する優れた読み書き機能を実証しました。
KOSMOS-2.5-CHAT は、9 つ​​のテキストリッチなビジュアル質問応答ベンチマーク全体で 5 倍大きい (1.3B 対 7B)、他の最先端のジェネラリストに匹敵するパフォーマンスを達成します。
モデルとコードは \url{https://aka.ms/kosmos25} で入手できます。

要約(オリジナル)

The automatic reading of text-intensive images represents a significant advancement toward achieving Artificial General Intelligence (AGI). In this paper we present KOSMOS-2.5, a multimodal literate model for machine reading of text-intensive images. Pre-trained on a large-scale corpus of text-intensive images, KOSMOS-2.5 excels in two distinct yet complementary transcription tasks: (1) generating spatially-aware text blocks, where each block of text is assigned spatial coordinates within the image, and (2) producing structured text output that captures both style and structure in markdown format. This unified multimodal literate capability is achieved through a shared decoder-only autoregressive Transformer architecture and task-specific prompts. Building on this foundation, we fine-tune KOSMOS-2.5 for document understanding tasks, resulting in a document understanding generalist named KOSMOS-2.5-CHAT. Additionally, a large corpus of 357.4 million document pages spanning diverse domains was curated for pre-training. We evaluate KOSMOS-2.5 on two newly proposed benchmarks, OCREval and MarkdownEval, for document-level text recognition and image-to-markdown generation, demonstrating impressive literate capabilities comparable to GPT-4o. KOSMOS-2.5-CHAT achieves performance comparable to other state-of-the-art generalists that are five times larger (1.3B vs. 7B) across nine text-rich visual question answering benchmarks. Models and code have been available at \url{https://aka.ms/kosmos25}.

arxiv情報

著者 Tengchao Lv,Yupan Huang,Jingye Chen,Yuzhong Zhao,Yilin Jia,Lei Cui,Shuming Ma,Yaoyao Chang,Shaohan Huang,Wenhui Wang,Li Dong,Weiyao Luo,Shaoxiang Wu,Guoxin Wang,Cha Zhang,Furu Wei
発行日 2024-08-21 16:54:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク