Evaluating Linguistic Capabilities of Multimodal LLMs in the Lens of Few-Shot Learning

要約

マルチモーダル大規模言語モデル (MLLM) の言語機能は、さまざまなタスクにわたって効果的に適用するために重要です。
この研究は、少数ショットのインコンテキスト学習 (ICL) と思考連鎖 (CoT) プロンプトの有効性に焦点を当て、VALSE ベンチマークで MLLM のパフォーマンスを評価することを目的としています。
私たちは、モデル サイズや事前トレーニング データセットが異なる最先端の MLLM の包括的な評価を実施しました。
実験結果は、特に複雑な推論と文脈の理解を必要とするタスクにおいて、ICL と CoT プロンプトがモデルのパフォーマンスを大幅に向上させることを明らかにしました。
キャプション データセットで事前トレーニングされたモデルは優れたゼロショット パフォーマンスを示しますが、インターリーブされた画像テキスト データでトレーニングされたモデルは少数ショット学習の恩恵を受けます。
私たちの調査結果は、視覚的なコンテキストにおける言語の基礎をより良くするための MLLM の最適化に関する貴重な洞察を提供し、事前トレーニング データの構成の重要性と、MLLM の推論能力を向上させるための少数ショット学習戦略の可能性を強調しています。

要約(オリジナル)

The linguistic capabilities of Multimodal Large Language Models (MLLMs) are critical for their effective application across diverse tasks. This study aims to evaluate the performance of MLLMs on the VALSE benchmark, focusing on the efficacy of few-shot In-Context Learning (ICL), and Chain-of-Thought (CoT) prompting. We conducted a comprehensive assessment of state-of-the-art MLLMs, varying in model size and pretraining datasets. The experimental results reveal that ICL and CoT prompting significantly boost model performance, particularly in tasks requiring complex reasoning and contextual understanding. Models pretrained on captioning datasets show superior zero-shot performance, while those trained on interleaved image-text data benefit from few-shot learning. Our findings provide valuable insights into optimizing MLLMs for better grounding of language in visual contexts, highlighting the importance of the composition of pretraining data and the potential of few-shot learning strategies to improve the reasoning abilities of MLLMs.

arxiv情報

著者 Mustafa Dogan,Ilker Kesen,Iacer Calixto,Aykut Erdem,Erkut Erdem
発行日 2024-07-17 11:26:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク