The Future of MLLM Prompting is Adaptive: A Comprehensive Experimental Evaluation of Prompt Engineering Methods for Robust Multimodal Performance

要約

マルチモーダル大手言語モデル(MLLM)は、マシンがテキスト、画像、コードなどの多様なモダリティを統合することにより、マシンがどのように処理および人間のような応答を生成するかを変換するように設定されています。
しかし、彼らの能力を効果的に活用して、最適な迅速なエンジニアリングにかかっています。
推論と構成性、マルチモーダルの理解とアライメント、複雑なコード生成と実行、および知識の検索と統合にまたがる24のタスクを超える13のオープンソースMLLMに適用される7つの迅速なエンジニアリング方法の包括的な実験評価を提示します。
私たちのアプローチは、パラメーターカウントによってモデルを小さな(<4b)、中(4b-10b)、および大規模(> 10b)カテゴリに層化し、ゼロショット、ワンショット、少数のショット、類推、生成された知識、および樹木を含むプロンプトのテクニックを比較します。
コード生成などの構造化されたタスクに大きなMLLMが優れており、少数のショットプロンプトで最大96.88%の精度を達成しますが、すべてのモデルは複雑な推論と抽象的な理解に苦労し、多くの場合、60%を下回って幻覚率を高めます。
構造化された推論プロンプトは、小さなモデルで最大75%に幻覚を増加させ、応答時間が長く(大きなMLLMで20秒以上)、より簡潔で効率的な出力を提供しました。
すべてのタスクタイプを均一に最適化する単一のプロンプトメソッドはありません。
代わりに、例ベースのガイダンスと選択的構造化された推論を組み合わせた適応戦略は、堅牢性、効率、および事実の正確性を高めるために不可欠です。
私たちの調査結果は、迅速なエンジニアリングに関する実用的な推奨事項を提供し、AIアシストコーディング、知識検索、マルチモーダルコンテンツの理解など、アプリケーション全体のMLLMのより信頼性の高い展開をサポートします。

要約(オリジナル)

Multimodal Large Language Models (MLLMs) are set to transform how machines process and generate human-like responses by integrating diverse modalities such as text, images, and code. Yet, effectively harnessing their capabilities hinges on optimal prompt engineering. We present a comprehensive experimental evaluation of seven prompt engineering methods applied to 13 open-source MLLMs over 24 tasks spanning Reasoning and Compositionality, Multimodal Understanding and Alignment, Complex Code Generation and Execution, and Knowledge Retrieval and Integration. Our approach stratifies models by parameter count into Small (<4B), Medium (4B-10B), and Large (>10B) categories and compares prompting techniques including Zero-Shot, One-Shot, Few-Shot, Chain-of-Thought, Analogical, Generated Knowledge, and Tree-of-Thought. While Large MLLMs excel in structured tasks such as code generation, achieving accuracies up to 96.88% under Few-Shot prompting, all models struggle with complex reasoning and abstract understanding, often yielding accuracies below 60% and high hallucination rates. Structured reasoning prompts frequently increased hallucination up to 75% in small models and led to longer response times (over 20 seconds in Large MLLMs), while simpler prompting methods provided more concise and efficient outputs. No single prompting method uniformly optimises all task types. Instead, adaptive strategies combining example-based guidance with selective structured reasoning are essential to enhance robustness, efficiency, and factual accuracy. Our findings offer practical recommendations for prompt engineering and support more reliable deployment of MLLMs across applications including AI-assisted coding, knowledge retrieval, and multimodal content understanding.

arxiv情報

著者 Anwesha Mohanty,Venkatesh Balavadhani Parthasarathy,Arsalan Shahid
発行日 2025-04-14 12:31:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.ET パーマリンク