MMRA: A Benchmark for Multi-granularity Multi-image Relational Association

要約

大規模視覚言語モデル (LVLM) が画像認識タスクで達成した目覚ましい成功を踏まえて、LVML に人間と同じように世界を認識させる取り組みにますます注目が集まっています。
現在のマルチモーダルベンチマークは主に、画像内の客観的事実または特定のトピックに関連する潜在的な知識に焦点を当てていますが、複数の画像間の連想関係は見落とされています。
したがって、複数の画像の関係関連付けタスクを定義し、\textbf{M}超粒度 \textbf{M}究極の画像 \textbf{R} 理論 \textbf{A} である \textbf{MMRA} ベンチマークを細心の注意を払って作成します。
\textbf{1026} サンプルで構成される関連付けベンチマーク。
主流の LVLM を系統的かつ包括的に評価するために、\textbf{11 のサブタスク} (UsageSimilarity、SubEvent など) を含む画像間の関連関係システムを 2 つの粒度レベル (つまり、’\textbf{image}’) で確立します。
ConceptNet の関係に従って、’\textbf{entity}’) となります。
私たちの実験では、MMRA ベンチマークで、現在の主流の LVLM にはすべて、さまざまなサブタスクにわたって独自の長所と短所があることが実証されました。
エンティティ レベルでは、すべてのモデルのパフォーマンスが画像レベルのパフォーマンスよりも劣っていることは注目に値します。これは、LVLM にとってきめの細かいマルチ画像認識タスクが依然として困難であることを示しています。
空間認識に関連するタスクは、LVLM が処理するのが比較的困難です。
さらに、LVML は画像の詳細を認識する優れた能力を示し、複数画像の関連付け能力を強化する鍵は、言語モデル コンポーネントの推論能力を強化することであることがわかりました。
すべてのコードとデータは、htt\url{https://github.com/Wusiwei0410/MMRA} でリリースされています。

要約(オリジナル)

Given the remarkable success that large visual language models (LVLMs) have achieved in image perception tasks, the endeavor to make LVMLs perceive the world like humans is drawing increasing attention. Current multi-modal benchmarks mainly focus on the objective fact or certain topic related potential knowledge within a image, but overlook the associative relations between multiple images. Therefore, we define a multi-image relation association task, and meticulously curate \textbf{MMRA} benchmark, a \textbf{M}ulti-granularity \textbf{M}ulti-image \textbf{R}elational \textbf{A}ssociation benchmark, consisted of \textbf{1026} samples. In order to systematically and comprehensively evaluate mainstream LVLMs, we establish an associational relation system among images that contain \textbf{11 subtasks} (e.g, UsageSimilarity, SubEvent, etc.) at two granularity levels (i.e., ‘\textbf{image}’ and ‘\textbf{entity}’) according to the relations in ConceptNet. Our experiments demonstrate that, on our MMRA benchmark, current mainstream LVLMs all have their own advantages and disadvantages across different subtasks. It is worth noting that, at the entity level, the performance of all models is worse than that of them at the image level, indicating that the fine-grained multi-image perception task is still challenging for LVLMs. The tasks related to spatial perception are relatively difficult for LVLMs to handle. Furthermore, we find that LVMLs exhibit a good ability to perceive image details, and the key to enhancing their multi-image association capability is to strengthen the reasoning ability of their language model component. All our codes and data are released at htt\url{https://github.com/Wusiwei0410/MMRA}.

arxiv情報

著者 Siwei Wu,Kang Zhu,Yu Bai,Yiming Liang,Yizhi Li,Haoning Wu,Jiaheng Liu,Ruibo Liu,Xingwei Qu,Xuxin Cheng,Ge Zhang,Wenhao Huang,Chenghua Lin
発行日 2024-07-24 15:59:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク