A Challenger to GPT-4V? Early Explorations of Gemini in Visual Expertise

要約

OpenAI の GPT-4V(ision) など、マルチモーダル大規模言語モデル (MLLM) に対する関心の高まりは、学界と産業界の両方で重要な傾向を示しています。
これらにより、大規模言語モデル (LLM) に視覚的理解における強力な機能が与えられ、多様なマルチモーダル タスクに取り組むことが可能になります。
ごく最近、Google は、マルチモダリティ向けに一から構築された最新かつ最も有能な MLLM である Gemini をリリースしました。
優れた推論能力を考慮して、Gemini はマルチモーダル学習における GPT-4V の主導的地位に挑戦できるでしょうか?
このペーパーでは、基本的な認識、高度な認知、困難な視覚タスク、およびさまざまな専門家の能力の 4 つの領域を包括的にカバーする、Gemini Pro の視覚理解能力の予備調査を示します。
Gemini Pro を最先端の GPT-4V と比較してその上限を評価し、最新のオープンソース MLLM、Sphinx と比較して、手作業とブラックボックス システムの間のギャップを明らかにします。
定性サンプルは、GPT-4V と Gemini が異なる回答スタイルと好みを示している一方で、同等の視覚的推論能力を示すことができ、ドメインの一般化性に関して Sphinx が依然として後れを取っていることを示しています。
具体的には、GPT-4V は詳細な説明と中間ステップを詳しく説明する傾向があり、Gemini は直接的で簡潔な答えを出力することを好みます。
人気の MME ベンチマークの定量的評価も、Gemini が GPT-4V に対する強力な挑戦者となる可能性を示しています。
ジェミニに関する私たちの初期の調査では、MLLM に共通するいくつかの問題も観察されており、汎用人工知能には依然としてかなりの距離があることが示されています。
MLLM の進捗状況を追跡するためのプロジェクトは、https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models でリリースされています。

要約(オリジナル)

The surge of interest towards Multi-modal Large Language Models (MLLMs), e.g., GPT-4V(ision) from OpenAI, has marked a significant trend in both academia and industry. They endow Large Language Models (LLMs) with powerful capabilities in visual understanding, enabling them to tackle diverse multi-modal tasks. Very recently, Google released Gemini, its newest and most capable MLLM built from the ground up for multi-modality. In light of the superior reasoning capabilities, can Gemini challenge GPT-4V’s leading position in multi-modal learning? In this paper, we present a preliminary exploration of Gemini Pro’s visual understanding proficiency, which comprehensively covers four domains: fundamental perception, advanced cognition, challenging vision tasks, and various expert capacities. We compare Gemini Pro with the state-of-the-art GPT-4V to evaluate its upper limits, along with the latest open-sourced MLLM, Sphinx, which reveals the gap between manual efforts and black-box systems. The qualitative samples indicate that, while GPT-4V and Gemini showcase different answering styles and preferences, they can exhibit comparable visual reasoning capabilities, and Sphinx still trails behind them concerning domain generalizability. Specifically, GPT-4V tends to elaborate detailed explanations and intermediate steps, and Gemini prefers to output a direct and concise answer. The quantitative evaluation on the popular MME benchmark also demonstrates the potential of Gemini to be a strong challenger to GPT-4V. Our early investigation of Gemini also observes some common issues of MLLMs, indicating that there still remains a considerable distance towards artificial general intelligence. Our project for tracking the progress of MLLM is released at https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models.

arxiv情報

著者 Chaoyou Fu,Renrui Zhang,Zihan Wang,Yubo Huang,Zhengye Zhang,Longtian Qiu,Gaoxiang Ye,Yunhang Shen,Mengdan Zhang,Peixian Chen,Sirui Zhao,Shaohui Lin,Deqiang Jiang,Di Yin,Peng Gao,Ke Li,Hongsheng Li,Xing Sun
発行日 2023-12-20 12:40:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.MM パーマリンク