要約
大規模言語モデル (LLM) と基本ビジョン モデルの革命的な進歩の恩恵を受けて、大規模ビジョン言語モデル (LVLM) も大幅に進歩しました。
ただし、現在のベンチマークは、LVLM 機能の 1 つの側面 (認識、検出、理解など) のみを評価するタスクに焦点を当てています。
これらのタスクでは、複雑なアプリケーション シナリオにおける LVLM の可能性を完全に実証することはできません。
既存の LVLM のパフォーマンスを包括的に評価するために、Flow Text with Image Insertion タスク (FTII) と呼ばれる、より困難なタスクを提案します。
このタスクでは、LVLM が画像理解、指示理解、および長文解釈において優れた能力を同時に備えていることが求められます。
具体的には、いくつかのテキスト段落と候補画像のセットが与えられた場合、テキスト段落が蓄積するにつれて、LVLM は対応する段落の後に挿入する候補から最適な画像を選択する必要があります。
このようなタスクのベンチマークを構築することは、特に流れるテキストや画像のシーケンスを決定する際に非常に困難です。
この課題に対処するために、私たちは専門的なニュース レポートに目を向けます。これには当然、画像とテキストのシーケンスのゴールドスタンダードが含まれています。
これに基づいて、10 の異なるニュース ドメインをカバーする、318 件の高品質の中国語画像テキスト ニュース記事と 307 件の高品質英語画像テキスト ニュース記事を含む Flow Text with Image Insertion Benchmark (FTII-Bench) を紹介します。
これら 625 の質の高い記事を使用して、複数の難易度の 2 つの異なるタイプの問題を作成します。
さらに、CLIP モデルと既存の LVLM に基づいて 2 つの異なる評価パイプラインを確立します。
9 つのオープンソース LVLM、2 つのクローズドソース LVLM、および 2 つの CLIP ベースのモデルを評価します。
結果は、最も先進的なモデル (GPT-4o など) であっても、FTII タスクに取り組む際には重大な課題に直面していることを示しています。
要約(オリジナル)
Benefiting from the revolutionary advances in large language models (LLMs) and foundational vision models, large vision-language models (LVLMs) have also made significant progress. However, current benchmarks focus on tasks that evaluating only a single aspect of LVLM capabilities (e.g., recognition, detection, understanding). These tasks fail to fully demonstrate LVLMs’ potential in complex application scenarios. To comprehensively assess the performance of existing LVLMs, we propose a more challenging task called the Flow Text with Image Insertion task (FTII). This task requires LVLMs to simultaneously possess outstanding abilities in image comprehension, instruction understanding, and long-text interpretation. Specifically, given several text paragraphs and a set of candidate images, as the text paragraphs accumulate, the LVLMs are required to select the most suitable image from the candidates to insert after the corresponding paragraph. Constructing a benchmark for such a task is highly challenging, particularly in determining the sequence of flowing text and images. To address this challenge, we turn to professional news reports, which naturally contain a gold standard for image-text sequences. Based on this, we introduce the Flow Text with Image Insertion Benchmark (FTII-Bench), which includes 318 high-quality Chinese image-text news articles and 307 high-quality English image-text news articles, covering 10 different news domains. Using these 625 high-quality articles, we construct problems of two different types with multiple levels of difficulty. Furthermore, we establish two different evaluation pipelines based on the CLIP model and existing LVLMs. We evaluate 9 open-source and 2 closed-source LVLMs as well as 2 CLIP-based models. Results indicate that even the most advanced models (e.g., GPT-4o) face significant challenges when tackling the FTII task.
arxiv情報
著者 | Jiacheng Ruan,Yebin Yang,Zehao Lin,Feiyu Xiong,Zeyun Tang,Zhiyu Li |
発行日 | 2024-10-16 13:38:31+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google