要約
少数ショット学習におけるインターリーブ大規模マルチモーダル モデル (LMM) の最近の成功は、多くの例を含むインコンテキスト学習 (ICL) が新しいタスクの学習に有望である可能性があることを示唆しています。
ただし、このマルチショット マルチモーダル ICL 設定には重大な問題が 1 つあります。それは、事前トレーニング時に設定されたモデルのコンテキスト長によって基本的に制限されるということです。
この問題は、テキストと画像の両方を処理するマルチモーダル ドメインで特に顕著であり、追加のトークンが必要になります。
このため、微調整せずに多くのショットをより少ないトークンに圧縮するマルチモーダルな方法の必要性が生じます。
この研究では、モデルのアテンション ヘッド内で圧縮されたコンテキスト内サンプルのコンパクトな暗黙的表現であるマルチモーダル タスク ベクトル (MTV) を活用することで、LMM がマルチモーダルでマルチショットのインコンテキスト学習を実行できるようにします。
具体的には、最初に LMM でそのような MTV の存在を実証し、次にこれらの抽出された MTV を活用して、さまざまな視覚および言語タスクのマルチショット インコンテキスト学習を可能にします。
私たちの実験では、MTV は圧縮ショットの数に応じてパフォーマンスを拡張でき、推論のためのコンテキスト長を追加することなく、同様のドメイン外タスクに一般化できることがわかりました。
要約(オリジナル)
The recent success of interleaved Large Multimodal Models (LMMs) in few-shot learning suggests that in-context learning (ICL) with many examples can be promising for learning new tasks. However, this many-shot multimodal ICL setting has one crucial problem: it is fundamentally limited by the model’s context length set at pretraining. The problem is especially prominent in the multimodal domain, which processes both text and images, requiring additional tokens. This motivates the need for a multimodal method to compress many shots into fewer tokens without finetuning. In this work, we enable LMMs to perform multimodal, many-shot in-context learning by leveraging Multimodal Task Vectors (MTV)–compact implicit representations of in-context examples compressed in the model’s attention heads. Specifically, we first demonstrate the existence of such MTV in LMMs and then leverage these extracted MTV to enable many-shot in-context learning for various vision-and-language tasks. Our experiments suggest that MTV can scale in performance with the number of compressed shots and generalize to similar out-of-domain tasks without additional context length for inference.
arxiv情報
著者 | Brandon Huang,Chancharik Mitra,Assaf Arbelle,Leonid Karlinsky,Trevor Darrell,Roei Herzig |
発行日 | 2024-06-21 17:50:02+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google