Breaking Common Sense: WHOOPS! A Vision-and-Language Benchmark of Synthetic and Compositional Images


人間はこれらの型破りな画像を簡単に認識して解釈できますが、AI モデルでも同じことができるでしょうか?
視覚的常識の新しいデータセットおよびベンチマークである WHOOPS! を紹介します。
このデータセットは、Midjourney などの公的に入手可能な画像生成ツールを使用してデザイナーが作成した、意図的に常識を覆す画像で構成されています。
画像キャプション、クロスモーダル マッチング、視覚的な質問応答に加えて、モデルが特定の画像が異常である理由を特定して説明する必要がある、難しい説明生成タスクを導入します。
私たちの結果は、GPT3 や BLIP2 などの最先端のモデルが WHOOPS! での人間のパフォーマンスに依然として及ばないことを示しています。
私たちのデータセットが、より強力な視覚的常識推論能力を備えた AI モデルの開発を刺激することを願っています。
データ、モデル、コードはプロジェクト Web サイトで入手できます:


Weird, unusual, and uncanny images pique the curiosity of observers because they challenge commonsense. For example, an image released during the 2022 world cup depicts the famous soccer stars Lionel Messi and Cristiano Ronaldo playing chess, which playfully violates our expectation that their competition should occur on the football field. Humans can easily recognize and interpret these unconventional images, but can AI models do the same? We introduce WHOOPS!, a new dataset and benchmark for visual commonsense. The dataset is comprised of purposefully commonsense-defying images created by designers using publicly-available image generation tools like Midjourney. We consider several tasks posed over the dataset. In addition to image captioning, cross-modal matching, and visual question answering, we introduce a difficult explanation generation task, where models must identify and explain why a given image is unusual. Our results show that state-of-the-art models such as GPT3 and BLIP2 still lag behind human performance on WHOOPS!. We hope our dataset will inspire the development of AI models with stronger visual commonsense reasoning abilities. Data, models and code are available at the project website:


著者 Nitzan Bitton-Guetta,Yonatan Bitton,Jack Hessel,Ludwig Schmidt,Yuval Elovici,Gabriel Stanovsky,Roy Schwartz
発行日 2023-08-12 22:37:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.AI, cs.CL, cs.CV パーマリンク