要約
画像を大規模言語モデル (LLM) に入力するための 2 つのアプローチが登場しました。
1 つ目は、画像に自然言語でキャプションを付けることです。
2 つ目は、画像特徴の埋め込みを LLM のドメインにマッピングし、マッピングされた埋め込みを LLM に直接渡すことです。
最近の少数ショットのマルチモーダル作業の大部分は、これら 2 つのアプローチのいずれかのバリエーションを採用したアーキテクチャを使用してパフォーマンスを報告しています。
しかし、彼らはそれらの間の重要な比較を見落としています。
私たちは、LLM を使用した少数ショットの視覚的質問応答 (VQA) に対するこれら 2 つのアプローチを比較するために、制御された集中的な実験を設計します。
私たちの調査結果は、3B パラメーター LLM である Flan-T5 XL の場合、視覚的な埋め込みを LLM 埋め込み空間に直接接続しても、画像キャプションを使用する場合よりもパフォーマンスの向上が保証されないことを示しています。
ゼロショット方式では、テキストの画像キャプションを使用する方が良いことがわかりました。
少数ショット方式では、コンテキスト内の例がどのように選択されるかによって、どちらが優れているかが決まります。
要約(オリジナル)
Two approaches have emerged to input images into large language models (LLMs). The first is to caption images into natural language. The second is to map image feature embeddings into the domain of the LLM and pass the mapped embeddings directly to the LLM. The majority of recent few-shot multimodal work reports performance using architectures that employ variations of one of these two approaches. But they overlook an important comparison between them. We design a controlled and focused experiment to compare these two approaches to few-shot visual question answering (VQA) with LLMs. Our findings indicate that for Flan-T5 XL, a 3B parameter LLM, connecting visual embeddings directly to the LLM embedding space does not guarantee improved performance over using image captions. In the zero-shot regime, we find using textual image captions is better. In the few-shot regimes, how the in-context examples are selected determines which is better.
arxiv情報
著者 | Igor Sterner,Weizhe Lin,Jinghong Chen,Bill Byrne |
発行日 | 2024-03-17 19:44:05+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google