Link-Context Learning for Multimodal LLMs

要約

新しい概念で文脈から学習し、適切な応答を返す能力は、人間の会話において不可欠です。
現在のマルチモーダル大規模言語モデル (MLLM) と大規模言語モデル (LLM) は大規模なデータセットでトレーニングされていますが、トレーニングなしで目に見えない画像を認識したり、新しい概念を理解したりすることは依然として課題です。
インコンテキスト学習 (ICL) は、トレーニング不要の少数ショット学習を探求しており、モデルは限られたタスクから「学習すること」を奨励され、目に見えないタスクに一般化されます。
この研究では、MLLM の学習能力を強化するために「原因と結果からの推論」に重点を置くリンクコンテキスト学習 (LCL) を提案します。
LCL は、サポート セットとクエリ セットの間の因果関係を明示的に強化することで、従来の ICL を超えています。
LCL は、因果関係を伴うデモンストレーションを提供することで、データ ポイント間の類似性だけでなく、根底にある因果関係も識別できるようにモデルを導きます。これにより、MLLM は、目に見えないイメージを認識し、新しい概念をより効果的に理解できるようになります。
この新しいアプローチの評価を容易にするために、リンクとコンテキストの学習用に設計された未確認の生成された画像とラベルのペアのみで構成される ISEKAI データセットを導入します。
広範な実験により、当社の LCL-MLLM は、バニラ MLLM よりも新しい概念に対して強力なリンク コンテキスト学習機能を発揮することが示されています。
コードとデータは https://github.com/isekai-portal/Link-Context-Learning で公開されます。

要約(オリジナル)

The ability to learn from context with novel concepts, and deliver appropriate responses are essential in human conversations. Despite current Multimodal Large Language Models (MLLMs) and Large Language Models (LLMs) being trained on mega-scale datasets, recognizing unseen images or understanding novel concepts in a training-free manner remains a challenge. In-Context Learning (ICL) explores training-free few-shot learning, where models are encouraged to “learn to learn’ from limited tasks and generalize to unseen tasks. In this work, we propose link-context learning (LCL), which emphasizes ‘reasoning from cause and effect’ to augment the learning capabilities of MLLMs. LCL goes beyond traditional ICL by explicitly strengthening the causal relationship between the support set and the query set. By providing demonstrations with causal links, LCL guides the model to discern not only the analogy but also the underlying causal associations between data points, which empowers MLLMs to recognize unseen images and understand novel concepts more effectively. To facilitate the evaluation of this novel approach, we introduce the ISEKAI dataset, comprising exclusively of unseen generated image-label pairs designed for link-context learning. Extensive experiments show that our LCL-MLLM exhibits strong link-context learning capabilities to novel concepts over vanilla MLLMs. Code and data will be released at https://github.com/isekai-portal/Link-Context-Learning.

arxiv情報

著者 Yan Tai,Weichen Fan,Zhao Zhang,Feng Zhu,Rui Zhao,Ziwei Liu
発行日 2023-08-15 17:33:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク