要約
画像表現は、多くの場合、見返りのあるタスク固有のプロトコルによって評価され、モデル能力の断片化された理解につながります。
たとえば、クラスタリング画像に熟練した画像の埋め込みモデルが、テキストを与えられた関連画像を取得するのに等しく優れているかどうかは不明です。
大規模な画像埋め込みベンチマーク(MIEB)を導入して、これまでで最も広いスペクトルにわたって画像と画像テキストの埋め込みモデルのパフォーマンスを評価します。
Miebは、130の個別のタスクにわたって38の言語にまたがっています。これは、8つの高レベルのカテゴリにグループ化されています。
ベンチマーク全体で50のモデルをベンチマークし、すべてのタスクカテゴリに単一の方法が支配的ではないことがわかりました。
テキストの正確な視覚表現や、交絡因子の存在下でのインターリーブエンコーディングやマッチング画像やテキストのまだ限られた機能などの高度なビジョンモデルに隠された機能を明らかにします。
また、MIEBでのVisionエンコーダーのパフォーマンスが、マルチモーダルの大手言語モデルで使用すると、パフォーマンスと非常に相関していることも示しています。
コード、データセット、およびリーダーボードは、https://github.com/embeddings-benchmark/mtebで公開されています。
要約(オリジナル)
Image representations are often evaluated through disjointed, task-specific protocols, leading to a fragmented understanding of model capabilities. For instance, it is unclear whether an image embedding model adept at clustering images is equally good at retrieving relevant images given a piece of text. We introduce the Massive Image Embedding Benchmark (MIEB) to evaluate the performance of image and image-text embedding models across the broadest spectrum to date. MIEB spans 38 languages across 130 individual tasks, which we group into 8 high-level categories. We benchmark 50 models across our benchmark, finding that no single method dominates across all task categories. We reveal hidden capabilities in advanced vision models such as their accurate visual representation of texts, and their yet limited capabilities in interleaved encodings and matching images and texts in the presence of confounders. We also show that the performance of vision encoders on MIEB correlates highly with their performance when used in multimodal large language models. Our code, dataset, and leaderboard are publicly available at https://github.com/embeddings-benchmark/mteb.
arxiv情報
著者 | Chenghao Xiao,Isaac Chung,Imene Kerboua,Jamie Stirling,Xin Zhang,Márton Kardos,Roman Solomatin,Noura Al Moubayed,Kenneth Enevoldsen,Niklas Muennighoff |
発行日 | 2025-04-14 17:54:28+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google