ColorSwap: A Color and Word Order Dataset for Multimodal Evaluation

要約

このペーパーでは、オブジェクトとその色を一致させるマルチモーダル モデルの習熟度を評価し、向上させるために設計された ColorSwap データセットを紹介します。
このデータセットは、2,000 個の固有の画像とキャプションのペアで構成され、1,000 個の例にグループ化されています。
各例には、「色を交換した」ペアに加えて、キャプションと画像のペアが含まれています。
Winoground スキーマに従います。例の 2 つのキャプションには同じ単語が含まれていますが、色の単語は別のオブジェクトを変更するために再配置されています。
このデータセットは、自動化されたキャプションと人間による画像生成を新たに組み合わせて作成されました。
私たちは画像とテキストのマッチング (ITM) と視覚言語モデル (VLM) を評価しましたが、最新のものでもこのタスクではまだ堅牢ではないことがわかりました。
GPT-4V と LLaVA のスコアは、主要な VLM メトリクスで 72% と 42% ですが、より高度なプロンプト技術を使用すると改善される可能性があります。
主要な ITM メトリクスでは、CLIP や SigLIP などの対照モデルはほぼ確率でパフォーマンスを示します (それぞれ 12% と 30%)。ただし、非対照的な BLIP ITM モデルの方が強力です (87%)。
また、2,000 未満の例を微調整すると、この分布外の語順理解タスクのパフォーマンスが大幅に向上することもわかりました。
データセットはこちら: https://github.com/Top34051/colorswap およびこちら: https://huggingface.co/datasets/stanfordnlp/colorswap。

要約(オリジナル)

This paper introduces the ColorSwap dataset, designed to assess and improve the proficiency of multimodal models in matching objects with their colors. The dataset is comprised of 2,000 unique image-caption pairs, grouped into 1,000 examples. Each example includes a caption-image pair, along with a “color-swapped” pair. We follow the Winoground schema: the two captions in an example have the same words, but the color words have been rearranged to modify different objects. The dataset was created through a novel blend of automated caption and image generation with humans in the loop. We evaluate image-text matching (ITM) and visual language models (VLMs) and find that even the latest ones are still not robust at this task. GPT-4V and LLaVA score 72% and 42% on our main VLM metric, although they may improve with more advanced prompting techniques. On the main ITM metric, contrastive models such as CLIP and SigLIP perform close to chance (at 12% and 30%, respectively), although the non-contrastive BLIP ITM model is stronger (87%). We also find that finetuning on fewer than 2,000 examples yields significant performance gains on this out-of-distribution word-order understanding task. The dataset is here: https://github.com/Top34051/colorswap and here: https://huggingface.co/datasets/stanfordnlp/colorswap.

arxiv情報

著者 Jirayu Burapacheep,Ishan Gaur,Agam Bhatia,Tristan Thrush
発行日 2024-08-06 17:31:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク