要約
マルチモダリティ大規模言語モデル (MLLM) の急速な進化により、コンピューター ビジョンは特殊なモデルから汎用の基盤モデルへの移行が促進されました。
それにもかかわらず、低レベルの視覚認識と理解に関するMLLMの能力を評価することは依然として不十分です。
このギャップに対処するために、低レベルの視覚認識、低レベルの視覚的説明、および全体的な視覚品質評価の 3 つの領域で MLLM の潜在的な能力を体系的に評価するために作成された総合的なベンチマークである Q-Bench を紹介します。
a) 低レベルの知覚能力を評価するために、2,990 の多様なソース画像から構成される LLVisionQA データセットを構築します。各画像には、その低レベルの属性に焦点を当てた人間による質問が含まれています。
次に、これらの質問に対する MLLM の回答の正しさを測定します。
b) 低レベル情報に関する MLLM の記述能力を調べるために、499 枚の画像上に専門家がラベル付けした長いゴールデン低レベルテキスト記述と、MLLM の出力とゴールデンの出力間の GPT 関与の比較パイプラインで構成される LLDescribe データセットを提案します。
説明。
c) これら 2 つのタスクに加えて、人間の意見スコアと一致する視覚的な品質評価能力をさらに測定します。
具体的には、MLLM が定量化可能な品質スコアを予測し、既存のさまざまな画質評価 (IQA) データセットで評価できるようにするソフトマックス ベースの戦略を設計します。
3 つの能力にわたる評価では、MLLM が予備的な低レベルの視覚スキルを備えていることが確認されています。
ただし、これらのスキルはまだ不安定で比較的不正確であり、これらの能力に向けて MLLM に特定の強化が必要であることを示しています。
私たちは、私たちのベンチマークが、研究コミュニティがMLLMの未開発の可能性を発見し、強化するためにさらに深く掘り下げることを奨励できることを願っています。
プロジェクトページ: https://q-future.github.io/Q-Bench。
要約(オリジナル)
The rapid evolution of Multi-modality Large Language Models (MLLMs) has catalyzed a shift in computer vision from specialized models to general-purpose foundation models. Nevertheless, there is still an inadequacy in assessing the abilities of MLLMs on low-level visual perception and understanding. To address this gap, we present Q-Bench, a holistic benchmark crafted to systematically evaluate potential abilities of MLLMs on three realms: low-level visual perception, low-level visual description, and overall visual quality assessment. a) To evaluate the low-level perception ability, we construct the LLVisionQA dataset, consisting of 2,990 diverse-sourced images, each equipped with a human-asked question focusing on its low-level attributes. We then measure the correctness of MLLMs on answering these questions. b) To examine the description ability of MLLMs on low-level information, we propose the LLDescribe dataset consisting of long expert-labelled golden low-level text descriptions on 499 images, and a GPT-involved comparison pipeline between outputs of MLLMs and the golden descriptions. c) Besides these two tasks, we further measure their visual quality assessment ability to align with human opinion scores. Specifically, we design a softmax-based strategy that enables MLLMs to predict quantifiable quality scores, and evaluate them on various existing image quality assessment (IQA) datasets. Our evaluation across the three abilities confirms that MLLMs possess preliminary low-level visual skills. However, these skills are still unstable and relatively imprecise, indicating the need for specific enhancements on MLLMs towards these abilities. We hope that our benchmark can encourage the research community to delve deeper to discover and enhance these untapped potentials of MLLMs. Project Page: https://q-future.github.io/Q-Bench.
arxiv情報
著者 | Haoning Wu,Zicheng Zhang,Erli Zhang,Chaofeng Chen,Liang Liao,Annan Wang,Chunyi Li,Wenxiu Sun,Qiong Yan,Guangtao Zhai,Weisi Lin |
発行日 | 2024-01-01 14:48:48+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google