Breaking Common Sense: WHOOPS! A Vision-and-Language Benchmark of Synthetic and Compositional Images

要約

奇妙で奇妙で不気味なイメージは、常識に挑戦するため、観察者の好奇心を刺激します。
たとえば、2022 年のワールド カップ中に公開された画像には、有名なサッカー スターのリオネル メッシとクリスティアーノ ロナウドがチェスをしている様子が描かれています。
人間はこれらの型にはまらない画像を簡単に認識して解釈できますが、AI モデルは同じことができるのでしょうか?
視覚的常識の新しいデータセットおよびベンチマークである WHOOPS! を紹介します。
このデータセットは、Midjourney などの公開されている画像生成ツールを使用してデザイナーが作成した、意図的に常識に反する画像で構成されています。
データセットに課されるいくつかのタスクを検討します。
画像キャプション、クロスモーダル マッチング、視覚的質問応答に加えて、モデルが特定の画像が異常である理由を特定して説明する必要がある、難しい説明生成タスクを導入します。
私たちの結果は、GPT3 や BLIP2 などの最先端のモデルが、依然として WHOOPS! での人間のパフォーマンスに遅れをとっていることを示しています。
私たちのデータセットが、より強力な視覚的常識推論能力を備えた AI モデルの開発を刺激することを願っています。
データ、モデル、およびコードは、プロジェクトの Web サイト (whoops-benchmark.github.io) で入手できます。

要約(オリジナル)

Weird, unusual, and uncanny images pique the curiosity of observers because they challenge commonsense. For example, an image released during the 2022 world cup depicts the famous soccer stars Lionel Messi and Cristiano Ronaldo playing chess, which playfully violates our expectation that their competition should occur on the football field. Humans can easily recognize and interpret these unconventional images, but can AI models do the same? We introduce WHOOPS!, a new dataset and benchmark for visual commonsense. The dataset is comprised of purposefully commonsense-defying images created by designers using publicly-available image generation tools like Midjourney. We consider several tasks posed over the dataset. In addition to image captioning, cross-modal matching, and visual question answering, we introduce a difficult explanation generation task, where models must identify and explain why a given image is unusual. Our results show that state-of-the-art models such as GPT3 and BLIP2 still lag behind human performance on WHOOPS!. We hope our dataset will inspire the development of AI models with stronger visual commonsense reasoning abilities. Data, models and code are available at the project website: whoops-benchmark.github.io

arxiv情報

著者 Nitzan Bitton-Guetta,Yonatan Bitton,Jack Hessel,Ludwig Schmidt,Yuval Elovici,Gabriel Stanovsky,Roy Schwartz
発行日 2023-03-14 21:30:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV パーマリンク