要約
GPT-4V や LLaVA などの大規模マルチモーダル モデル (LMM) は、一般的な画像スタイルを使用した視覚的推論において顕著な能力を示しています。
しかし、実際のアプリケーションにとって重要な、多様なスタイルの変化に対する堅牢性は、ほとんど解明されていないままです。
このペーパーでは、芸術的な画像スタイル、イメージング センサー スタイル、アプリケーション スタイルという 3 つの異なるスタイルに対する LMM の堅牢性を評価するための新しいベンチマークである BenchLMM を提案します。各スタイルには 5 つのサブスタイルがあります。
BenchLMM を利用して、最先端の LMM を総合的に評価し、次のことを明らかにしました。 1) LMM は一般に、他のスタイルと連携するとパフォーマンスが低下します。
2) LMM が一般的なスタイルで他のモデルよりも優れたパフォーマンスを発揮しても、他のスタイルでの優れたパフォーマンスが保証されるわけではありません。
3) LMM の推論能力は、LMM に最初にスタイルを予測するよう促すことで強化できます。これに基づいて、LMM を改善するための多用途でトレーニング不要の方法を提案します。
4) インテリジェントな LMM は、文体のバリエーションに直面したときにエラーの原因を解釈することが期待されます。
私たちは、私たちのベンチマークと分析が、よりインテリジェントで多用途な LMM の開発に新たな光を当てることができることを願っています。
要約(オリジナル)
Large Multimodal Models (LMMs) such as GPT-4V and LLaVA have shown remarkable capabilities in visual reasoning with common image styles. However, their robustness against diverse style shifts, crucial for practical applications, remains largely unexplored. In this paper, we propose a new benchmark, BenchLMM, to assess the robustness of LMMs against three different styles: artistic image style, imaging sensor style, and application style, where each style has five sub-styles. Utilizing BenchLMM, we comprehensively evaluate state-of-the-art LMMs and reveal: 1) LMMs generally suffer performance degradation when working with other styles; 2) An LMM performs better than another model in common style does not guarantee its superior performance in other styles; 3) LMMs’ reasoning capability can be enhanced by prompting LMMs to predict the style first, based on which we propose a versatile and training-free method for improving LMMs; 4) An intelligent LMM is expected to interpret the causes of its errors when facing stylistic variations. We hope that our benchmark and analysis can shed new light on developing more intelligent and versatile LMMs.
arxiv情報
著者 | Rizhao Cai,Zirui Song,Dayan Guan,Zhenhao Chen,Xing Luo,Chenyu Yi,Alex Kot |
発行日 | 2023-12-06 03:46:47+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google