From GPT-4 to Gemini and Beyond: Assessing the Landscape of MLLMs on Generalizability, Trustworthiness and Causality through Four Modalities

要約

マルチモーダル大規模言語モデル (MLLM) は、マルチモーダル コンテンツに関して合理的な応答を生成する優れた能力を示しています。
しかし、最も強力な OpenAI の GPT-4 と Google の Gemini が導入されているにもかかわらず、最近の MLLM ベースのアプリケーションのパフォーマンスと一般大衆の期待との間には依然として大きなギャップがあります。
この論文は、最終的にはテキスト、コード、画像、ビデオという 4 つのモダリティにわたる最近の独自のオープンソース MLLM の一般化可能性、信頼性、および因果推論機能に関する定性的研究のレンズを通して、ギャップについての理解を深めることを目指しています。
MLLM の透明性の向上を目指しています。
これらの特性は、さまざまな下流アプリケーションをサポートする際の MLLM の信頼性を定義するいくつかの代表的な要素であると私たちは考えています。
具体的には、クローズドソースの GPT-4 と Gemini、および 6 つのオープンソース LLM と MLLM を評価します。
全体として、手動で設計された 230 のケースを評価し、定性的な結果が 12 のスコア (つまり、4 つのモダリティ x 3 つの特性) に要約されます。
合計で、より信頼性の高い下流のマルチモーダル アプリケーションに向けて、独自の MLLM とオープンソース MLLM の両方の機能と制限を理解するのに役立つ 14 の経験的発見が明らかになりました。

要約(オリジナル)

Multi-modal Large Language Models (MLLMs) have shown impressive abilities in generating reasonable responses with respect to multi-modal contents. However, there is still a wide gap between the performance of recent MLLM-based applications and the expectation of the broad public, even though the most powerful OpenAI’s GPT-4 and Google’s Gemini have been deployed. This paper strives to enhance understanding of the gap through the lens of a qualitative study on the generalizability, trustworthiness, and causal reasoning capabilities of recent proprietary and open-source MLLMs across four modalities: ie, text, code, image, and video, ultimately aiming to improve the transparency of MLLMs. We believe these properties are several representative factors that define the reliability of MLLMs, in supporting various downstream applications. To be specific, we evaluate the closed-source GPT-4 and Gemini and 6 open-source LLMs and MLLMs. Overall we evaluate 230 manually designed cases, where the qualitative results are then summarized into 12 scores (ie, 4 modalities times 3 properties). In total, we uncover 14 empirical findings that are useful to understand the capabilities and limitations of both proprietary and open-source MLLMs, towards more reliable downstream multi-modal applications.

arxiv情報

著者 Chaochao Lu,Chen Qian,Guodong Zheng,Hongxing Fan,Hongzhi Gao,Jie Zhang,Jing Shao,Jingyi Deng,Jinlan Fu,Kexin Huang,Kunchang Li,Lijun Li,Limin Wang,Lu Sheng,Meiqi Chen,Ming Zhang,Qibing Ren,Sirui Chen,Tao Gui,Wanli Ouyang,Yali Wang,Yan Teng,Yaru Wang,Yi Wang,Yinan He,Yingchun Wang,Yixu Wang,Yongting Zhang,Yu Qiao,Yujiong Shen,Yurong Mou,Yuxi Chen,Zaibin Zhang,Zhelun Shi,Zhenfei Yin,Zhipin Wang
発行日 2024-01-29 15:18:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク