Losing Visual Needles in Image Haystacks: Vision Language Models are Easily Distracted in Short and Long Contexts

要約

ビジョン言語モデル (VLM) におけるロングコンテキストの抽出推論を評価するための動的ベンチマーク ジェネレーターである LoCoVQA を紹介します。
LoCoVQA は、配布内および配布外の両方のディストラクタ画像で構成される視覚的コンテキストがますます長くなり、数理推論、VQA、および文字認識タスクのテスト例を強化します。
これらのタスク全体で、ビジュアル コンテキストの長さが長くなるにつれて、さまざまな VLM セットのパフォーマンスが急速に低下し、多くの場合、顕著な指数関数的な減衰傾向が見られます。
このテストは、VLM がクエリに応答する際に無関係な情報をどれだけ無視できるかを評価します。このタスクは、テキスト ドメインの言語モデル (LM) にとって非常に簡単です。現在の最先端の VLM には、多くの人にとってこの重要な機能が欠けていることが示されています。
ロングコンテキストのアプリケーション。

要約(オリジナル)

We present LoCoVQA, a dynamic benchmark generator for evaluating long-context extractive reasoning in vision language models (VLMs). LoCoVQA augments test examples for mathematical reasoning, VQA, and character recognition tasks with increasingly long visual contexts composed of both in-distribution and out-of-distribution distractor images. Across these tasks, a diverse set of VLMs rapidly lose performance as the visual context length grows, often exhibiting a striking exponential decay trend. This test assesses how well VLMs can ignore irrelevant information when answering queries — a task that is quite easy for language models (LMs) in the text domain — demonstrating that current state-of-the-art VLMs lack this essential capability for many long-context applications.

arxiv情報

著者 Aditya Sharma,Michael Saxon,William Yang Wang
発行日 2024-06-24 17:58:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV パーマリンク