How Does the Textual Information Affect the Retrieval of Multimodal In-Context Learning?

要約

マルチモーダル大規模言語モデル (MLLM) のパラメーター サイズの増加により、特にインコンテキスト学習などの重要な機能が導入され、MLLM は事前トレーニングされたパラメーターを更新せずにタスクのパフォーマンスを向上させます。
ただし、この有効性はコンテキスト内の例の適切な選択にかかっており、現在このプロセスは視覚的なデータに偏っており、テキスト情報が無視されています。
さらに、MLLM の教師付き検索の領域は、コンテキスト内の最適な例の選択に重要ですが、依然として調査されていません。
私たちの研究は、マルチモーダルなコンテキストにおけるコンテキスト内の例の教師なし選択に対するテキスト情報の影響の詳細な評価を提供し、採用されたモダリティに対するレトリーバーのパフォーマンスの顕著な敏感性を明らかにしました。
これに応えて、マルチモーダルなインコンテキスト学習効率を高める例を選択するためにニューラル ネットワークを使用する、新しい教師あり MLLM レトリバー MSIER を紹介します。
このアプローチは、3 つの異なるタスクにわたる広範なテストを通じて検証され、メソッドの有効性が実証されています。
さらに、教師あり検索法のトレーニングに対するモダリティの影響を調査し、モデルの成功に寄与する要因を特定します。
この探索は将来の進歩への道を切り開き、マルチモーダル データの戦略的使用を通じて MLLM における洗練されたコンテキスト内学習の可能性を浮き彫りにします。

要約(オリジナル)

The increase in parameter size of multimodal large language models (MLLMs) introduces significant capabilities, particularly in-context learning, where MLLMs enhance task performance without updating pre-trained parameters. This effectiveness, however, hinges on the appropriate selection of in-context examples, a process that is currently biased towards visual data, overlooking textual information. Furthermore, the area of supervised retrievers for MLLMs, crucial for optimal in-context example selection, continues to be uninvestigated. Our study offers an in-depth evaluation of the impact of textual information on the unsupervised selection of in-context examples in multimodal contexts, uncovering a notable sensitivity of retriever performance to the employed modalities. Responding to this, we introduce a novel supervised MLLM-retriever MSIER that employs a neural network to select examples that enhance multimodal in-context learning efficiency. This approach is validated through extensive testing across three distinct tasks, demonstrating the method’s effectiveness. Additionally, we investigate the influence of modalities on our supervised retrieval method’s training and pinpoint factors contributing to our model’s success. This exploration paves the way for future advancements, highlighting the potential for refined in-context learning in MLLMs through the strategic use of multimodal data.

arxiv情報

著者 Yang Luo,Zangwei Zheng,Zirui Zhu,Yang You
発行日 2024-04-19 13:05:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV パーマリンク