Don’t Buy it! Reassessing the Ad Understanding Abilities of Contrastive Multimodal Models

要約

画像ベースの広告は、複雑で多様な刺激であり、多くの場合、珍しい視覚要素や比喩的な言語が含まれています。
自動広告理解に関するこれまでの研究では、広告説明検索タスクにおける対比視覚言語モデル (VLM) のゼロショット精度が優れていることが報告されています。
ここでは、元のタスク設定を検証し、対照的な VLM がグラウンディング ヒューリスティックを利用してそれを解決できることを示します。
この混乱を制御するために、敵対的な根拠に基づいた説明を備えた新しい評価テスト セットである TRADE を導入します。
これらの説明は人間には信じられないように見えますが、それらが 4 つの異なる対照的な VLM を「だましている」ことを示します。
私たちの調査結果は、VLM のマルチモーダル推論能力を真に評価する自動広告理解の運用改善の必要性を浮き彫りにしています。
コードと TRADE は https://github.com/dmg-illc/trade で利用可能です。

要約(オリジナル)

Image-based advertisements are complex multimodal stimuli that often contain unusual visual elements and figurative language. Previous research on automatic ad understanding has reported impressive zero-shot accuracy of contrastive vision-and-language models (VLMs) on an ad-explanation retrieval task. Here, we examine the original task setup and show that contrastive VLMs can solve it by exploiting grounding heuristics. To control for this confound, we introduce TRADE, a new evaluation test set with adversarial grounded explanations. While these explanations look implausible to humans, we show that they ‘fool’ four different contrastive VLMs. Our findings highlight the need for an improved operationalisation of automatic ad understanding that truly evaluates VLMs’ multimodal reasoning abilities. We make our code and TRADE available at https://github.com/dmg-illc/trade .

arxiv情報

著者 A. Bavaresco,A. Testoni,R. Fernández
発行日 2024-05-31 14:31:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク