要約
誰かが腕を掻いているのを観察しているところを想像してみてください。
その理由を理解するには、追加のコンテキストが必要です。
しかし、近くに蚊を見つければ、その人の不快感の説明がすぐに得られるため、さらなる情報の必要性が軽減されます。
この例は、微妙な視覚的な手がかりがどのように私たちの認知スキルに挑戦するかを示し、視覚的なシナリオを解釈することの複雑さを示しています。
これらのスキルを研究するために、常識と世界知識を必要とする視覚的な謎に関する視覚モデルと言語モデルをテストすることを目的としたベンチマークである Visual Riddles を紹介します。
このベンチマークは 400 個の視覚的な謎で構成されており、各謎はさまざまなテキストから画像へのモデル、質問、真実の答え、テキストのヒント、および帰属によって作成された独自の画像を特徴としています。
人間による評価では、既存のモデルが人間のパフォーマンスより大幅に遅れており、その精度は 82% であり、Gemini-Pro-1.5 は 40% の精度でリードしています。
私たちのベンチマークには、評価をスケーラブルにする自動評価タスクが付属しています。
これらの発見は、複雑な視覚シナリオを解釈する際の視覚モデルと言語モデルの機能を強化するための貴重なリソースとしての視覚謎の可能性を強調しています。
要約(オリジナル)
Imagine observing someone scratching their arm; to understand why, additional context would be necessary. However, spotting a mosquito nearby would immediately offer a likely explanation for the person’s discomfort, thereby alleviating the need for further information. This example illustrates how subtle visual cues can challenge our cognitive skills and demonstrates the complexity of interpreting visual scenarios. To study these skills, we present Visual Riddles, a benchmark aimed to test vision and language models on visual riddles requiring commonsense and world knowledge. The benchmark comprises 400 visual riddles, each featuring a unique image created by a variety of text-to-image models, question, ground-truth answer, textual hint, and attribution. Human evaluation reveals that existing models lag significantly behind human performance, which is at 82% accuracy, with Gemini-Pro-1.5 leading with 40% accuracy. Our benchmark comes with automatic evaluation tasks to make assessment scalable. These findings underscore the potential of Visual Riddles as a valuable resource for enhancing vision and language models’ capabilities in interpreting complex visual scenarios.
arxiv情報
著者 | Nitzan Bitton-Guetta,Aviv Slobodkin,Aviya Maimon,Eliya Habba,Royi Rassin,Yonatan Bitton,Idan Szpektor,Amir Globerson,Yuval Elovici |
発行日 | 2024-11-25 12:53:44+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google