要約
大規模言語モデル (LLM) は、画像分類を含む多くのコンピューター ビジョン タスクに効果的に使用されています。
この論文では、マルチモーダル LLM を使用したゼロショット画像分類のためのシンプルかつ効果的なアプローチを紹介します。
マルチモーダル LLM を採用することで、入力画像から包括的なテキスト表現を生成します。
これらのテキスト表現は、クロスモーダル埋め込み空間で固定次元の特徴を生成するために利用されます。
その後、これらの特徴が融合され、線形分類器を使用してゼロショット分類が実行されます。
私たちの方法では、データセットごとに迅速なエンジニアリングを必要としません。
代わりに、すべてのデータセットにわたって単一の単純なプロンプトのセットを使用します。
私たちはいくつかのデータセットでこの手法を評価しました。その結果、複数のデータセットでのベンチマークの精度を上回る、その顕著な有効性が実証されました。
10 回のベンチマークの平均で、私たちの手法は従来の手法と比較して 4.1 パーセント ポイントの精度向上を達成し、ImageNet データセットでは 6.8 パーセント ポイントの向上を達成しました。
私たちの調査結果は、マルチモーダル LLM がゼロショット画像分類などのコンピューター ビジョン タスクを強化し、従来の方法に比べて大幅な改善をもたらす可能性を強調しています。
要約(オリジナル)
Large language models (LLMs) has been effectively used for many computer vision tasks, including image classification. In this paper, we present a simple yet effective approach for zero-shot image classification using multimodal LLMs. By employing multimodal LLMs, we generate comprehensive textual representations from input images. These textual representations are then utilized to generate fixed-dimensional features in a cross-modal embedding space. Subsequently, these features are fused together to perform zero-shot classification using a linear classifier. Our method does not require prompt engineering for each dataset; instead, we use a single, straightforward, set of prompts across all datasets. We evaluated our method on several datasets, and our results demonstrate its remarkable effectiveness, surpassing benchmark accuracy on multiple datasets. On average over ten benchmarks, our method achieved an accuracy gain of 4.1 percentage points, with an increase of 6.8 percentage points on the ImageNet dataset, compared to prior methods. Our findings highlight the potential of multimodal LLMs to enhance computer vision tasks such as zero-shot image classification, offering a significant improvement over traditional methods.
arxiv情報
著者 | Abdelrahman Abdelhamed,Mahmoud Afifi,Alec Go |
発行日 | 2024-05-24 16:05:15+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google