How Does the Textual Information Affect the Retrieval of Multimodal In-Context Learning?


マルチモーダル大規模言語モデル (MLLM) のパラメーター サイズの増加により、特にインコンテキスト学習などの重要な機能が導入され、MLLM は事前トレーニングされたパラメーターを更新せずにタスクのパフォーマンスを向上させます。
さらに、MLLM の教師付き検索の領域は、コンテキスト内の最適な例の選択に重要ですが、依然として調査されていません。
これに応えて、マルチモーダルなインコンテキスト学習効率を高める例を選択するためにニューラル ネットワークを使用する、新しい教師あり MLLM レトリバー MSIER を紹介します。
このアプローチは、3 つの異なるタスクにわたる広範なテストを通じて検証され、メソッドの有効性が実証されています。
この探索は将来の進歩への道を切り開き、マルチモーダル データの戦略的使用を通じて MLLM における洗練されたコンテキスト内学習の可能性を浮き彫りにします。


The increase in parameter size of multimodal large language models (MLLMs) introduces significant capabilities, particularly in-context learning, where MLLMs enhance task performance without updating pre-trained parameters. This effectiveness, however, hinges on the appropriate selection of in-context examples, a process that is currently biased towards visual data, overlooking textual information. Furthermore, the area of supervised retrievers for MLLMs, crucial for optimal in-context example selection, continues to be uninvestigated. Our study offers an in-depth evaluation of the impact of textual information on the unsupervised selection of in-context examples in multimodal contexts, uncovering a notable sensitivity of retriever performance to the employed modalities. Responding to this, we introduce a novel supervised MLLM-retriever MSIER that employs a neural network to select examples that enhance multimodal in-context learning efficiency. This approach is validated through extensive testing across three distinct tasks, demonstrating the method’s effectiveness. Additionally, we investigate the influence of modalities on our supervised retrieval method’s training and pinpoint factors contributing to our model’s success. This exploration paves the way for future advancements, highlighting the potential for refined in-context learning in MLLMs through the strategic use of multimodal data.


著者 Yang Luo,Zangwei Zheng,Zirui Zhu,Yang You
発行日 2024-04-19 13:05:37+00:00
