要約
インコンテキスト学習 (ICL) は大規模言語モデル (LLM) に顕著なパフォーマンス向上をもたらしますが、その向上は依然として下流タスクの微調整よりも低いままです。
このペーパーでは、マルチモーダル LLM (MM-LLM) の有望な ICL 機能を最大限に活用することで、マルチモーダル微調整を強化する新しいマルチモーダル微調整パラダイムである、マルチモーダル インコンテキスト チューニング (MMICT) について紹介します。
私たちは、さまざまな入力や目的に応じてさまざまなマルチモーダル機能を取り込む統合モジュールであるマルチモーダル ハブ (M-Hub) を提案します。
M-Hub に基づいた MMICT により、MM-LLM はコンテキスト内の視覚ガイド付きテキスト特徴から学習し、その後、テキストガイド付き視覚特徴に条件付けされた出力を生成できます。
さらに、M-Hub の柔軟性を活用して、コンテキストに沿ったさまざまなデモンストレーションを設計します。
さまざまな下流のマルチモーダル タスクに関する広範な実験により、MMICT が従来の微調整戦略や、さまざまなモダリティからのすべての情報の連結を入力として直接取得する標準的な ICT 手法よりも大幅に優れていることが実証されました。
要約(オリジナル)
Although In-Context Learning (ICL) brings remarkable performance gains to Large Language Models (LLMs), the improvements remain lower than fine-tuning on downstream tasks. This paper introduces Multi-Modal In-Context Tuning (MMICT), a novel multi-modal fine-tuning paradigm that boosts multi-modal fine-tuning by fully leveraging the promising ICL capability of multi-modal LLMs (MM-LLMs). We propose the Multi-Modal Hub (M-Hub), a unified module that captures various multi-modal features according to different inputs and objectives. Based on M-Hub, MMICT enables MM-LLMs to learn from in-context visual-guided textual features and subsequently generate outputs conditioned on the textual-guided visual features. Moreover, leveraging the flexibility of M-Hub, we design a variety of in-context demonstrations. Extensive experiments on a diverse range of downstream multi-modal tasks demonstrate that MMICT significantly outperforms traditional fine-tuning strategy and the vanilla ICT method that directly takes the concatenation of all information from different modalities as input.
arxiv情報
著者 | Tao Chen,Enwei Zhang,Yuting Gao,Ke Li,Xing Sun,Yan Zhang,Hui Li |
発行日 | 2023-12-12 06:53:27+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google