要約
最近、大規模言語モデル (LLM) は、コンテキスト内学習 (ICL) の助けを借りて新しいタスクを処理する際に優れた機能を実証しました。
大規模視覚言語モデル (LVLM) の研究では、ICL を実装する際、研究者は通常、さまざまなサンプルにわたる固定デモンストレーションや、視覚言語埋め込みモデルを介してデモンストレーションを直接選択するなどの単純な戦略を採用します。
これらの方法では、構成されたデモンストレーションが LVLM のニーズに適合することは保証されません。
この問題に対処するために、私たちは現在、大規模な m\underline{u}lti-modal \underline{m}odel (DRUM) 用の新しいフレームワーク \underline{d}emonstration \underline{r}etriever を提案します。
LVLM のニーズをより適切に満たすためのビジュアル言語埋め込みモデル。
まず、埋め込みモデルが与えられていると仮定して、視覚言語タスクの検索戦略について説明します。
そして、画像とテキストの埋め込みを連結して検索パフォーマンスを向上させることを提案します。
次に、LVLM のフィードバックを介して埋め込みモデルによって取得されたデモンストレーションを再ランク付けし、埋め込みモデルをトレーニングするためのリストごとのランキング損失を計算することを提案します。
第三に、埋め込みモデルのトレーニングを改善するための反復的なデモンストレーション マイニング戦略を提案します。
3 種類の視覚言語タスク、7 つのベンチマーク データセットに関する広範な実験を通じて、当社の DRUM フレームワークは、より適切なデモンストレーションを取得することで LVLM のインコンテキスト学習パフォーマンスを向上させるのに効果的であることが証明されました。
要約(オリジナル)
Recently, large language models (LLMs) have demonstrated impressive capabilities in dealing with new tasks with the help of in-context learning (ICL). In the study of Large Vision-Language Models (LVLMs), when implementing ICL, researchers usually adopts the naive strategies like fixed demonstrations across different samples, or selecting demonstrations directly via a visual-language embedding model. These methods does not guarantee the configured demonstrations fit the need of the LVLMs. To address this issue, we now propose a novel framework, \underline{d}emonstration \underline{r}etriever for large m\underline{u}lti-modal \underline{m}odel (DRUM), which fine-tunes the visual-language embedding model to better meet the LVLM’s needs. First, we discuss the retrieval strategies for a visual-language task, assuming an embedding model is given. And we propose to concate the image and text embeddings to enhance the retrieval performance. Second, we propose to re-rank the demonstrations retrieved by the embedding model via the LVLM’s feedbacks, and calculate a list-wise ranking loss for training the embedding model. Third, we propose an iterative demonstration mining strategy to improve the training of the embedding model. Through extensive experiments on 3 types of visual-language tasks, 7 benchmark datasets, our DRUM framework is proven to be effective in boosting the LVLM’s in-context learning performance via retrieving more proper demonstrations.
arxiv情報
著者 | Ellen Yi-Ge,Jiechao Gao,Wei Han,Wei Zhu |
発行日 | 2024-12-10 15:56:12+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google