要約
Large Vision-Language Model (LVLM) の最近の進歩により、複雑なマルチモーダルなタスクへの取り組みにおいて大きな進歩が見られました。
これらの最先端の開発の中でも、Google の Bard は、さまざまな領域にわたる包括的な理解と推論を促進する、その驚くべきマルチモーダル機能で際立っています。
この研究では、Tiny LVLM-eHub という名前の LVLM-eHub の軽量バリアントを提案することにより、特に Bard に焦点を当てた LVLM のマルチモーダル能力の初期かつ総合的な評価を示しています。
バニラ バージョンと比較して、Tiny LVLM-eHub にはいくつかの魅力的な特性があります。
まず、$42$ の標準的なテキスト関連の視覚ベンチマークの定量的評価を通じて、視覚知覚、視覚知識獲得、視覚推論、視覚常識、物体幻覚、身体化知能を含む 6 つのカテゴリーのマルチモーダル能力の体系的な評価を提供します。
次に、ChatGPT アンサンブル評価 (CEE) を使用して LVLM の予測の詳細な分析を実行します。これにより、堅牢で正確な評価が得られ、単語一致アプローチと比較して人間の評価との整合性が向上します。
第三に、これはわずか 2.1 千ドルの画像とテキストのペアで構成されており、実践者が自分のオフライン LVLM を評価するのが容易になります。
この研究は、広範な実験分析を通じて、Bard が依然として影響を受けやすい物体幻覚を除く、ほとんどのマルチモーダル機能において、Bard が以前の LVLM よりも優れていることを示しています。
Tiny LVLM-eHub は、さまざまな LVLM のベースライン評価として機能し、マルチモーダル技術の進歩を目的とした革新的な戦略を促進します。
私たちのプロジェクトは \url{https://github.com/OpenGVLab/Multi-Modality-Arena} で公開されています。
要約(オリジナル)
Recent advancements in Large Vision-Language Models (LVLMs) have demonstrated significant progress in tackling complex multimodal tasks. Among these cutting-edge developments, Google’s Bard stands out for its remarkable multimodal capabilities, promoting comprehensive comprehension and reasoning across various domains. This work presents an early and holistic evaluation of LVLMs’ multimodal abilities, with a particular focus on Bard, by proposing a lightweight variant of LVLM-eHub, named Tiny LVLM-eHub. In comparison to the vanilla version, Tiny LVLM-eHub possesses several appealing properties. Firstly, it provides a systematic assessment of six categories of multimodal capabilities, including visual perception, visual knowledge acquisition, visual reasoning, visual commonsense, object hallucination, and embodied intelligence, through quantitative evaluation of $42$ standard text-related visual benchmarks. Secondly, it conducts an in-depth analysis of LVLMs’ predictions using the ChatGPT Ensemble Evaluation (CEE), which leads to a robust and accurate evaluation and exhibits improved alignment with human evaluation compared to the word matching approach. Thirdly, it comprises a mere $2.1$K image-text pairs, facilitating ease of use for practitioners to evaluate their own offline LVLMs. Through extensive experimental analysis, this study demonstrates that Bard outperforms previous LVLMs in most multimodal capabilities except object hallucination, to which Bard is still susceptible. Tiny LVLM-eHub serves as a baseline evaluation for various LVLMs and encourages innovative strategies aimed at advancing multimodal techniques. Our project is publicly available at \url{https://github.com/OpenGVLab/Multi-Modality-Arena}.
arxiv情報
| 著者 | Wenqi Shao,Yutao Hu,Peng Gao,Meng Lei,Kaipeng Zhang,Fanqing Meng,Peng Xu,Siyuan Huang,Hongsheng Li,Yu Qiao,Ping Luo |
| 発行日 | 2023-08-07 17:17:05+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google