要約
大規模言語モデル(LLM)は、Winograd Schema Challenge (WSC)のようなタスクで顕著な成功を収め、高度なテキスト常識推論を示してきた。しかし、この推論を、テキストと画像を一緒に理解することが不可欠なマルチモーダル領域に適用することは、依然として大きな課題である。これを解決するために、我々はWinoVisを紹介する。WinoVisは、マルチモーダルな文脈における代名詞の曖昧性解消について、テキストから画像へのモデルを調査するために特別に設計された新しいデータセットである。プロンプト生成にGPT-4を利用し、ヒートマップ分析に拡散帰属マップ(DAAM)を利用することで、モデルの代名詞曖昧性解消能力を他の視覚処理課題から分離する新しい評価フレームワークを提案する。連続するモデルのバージョンを評価した結果、漸進的な進歩にもかかわらず、Stable Diffusion 2.0はWinoVisにおいて56.7%の精度を達成し、ランダム推測をわずかに上回る程度であることが明らかになった。さらなるエラー分析により、複雑な視覚世界を解釈し、相互作用する能力において、テキストから画像へのモデルを進歩させることを目的とした将来の研究のための重要な領域が特定された。
要約(オリジナル)
Large Language Models (LLMs) have demonstrated remarkable success in tasks like the Winograd Schema Challenge (WSC), showcasing advanced textual common-sense reasoning. However, applying this reasoning to multimodal domains, where understanding text and images together is essential, remains a substantial challenge. To address this, we introduce WinoVis, a novel dataset specifically designed to probe text-to-image models on pronoun disambiguation within multimodal contexts. Utilizing GPT-4 for prompt generation and Diffusion Attentive Attribution Maps (DAAM) for heatmap analysis, we propose a novel evaluation framework that isolates the models’ ability in pronoun disambiguation from other visual processing challenges. Evaluation of successive model versions reveals that, despite incremental advancements, Stable Diffusion 2.0 achieves a precision of 56.7% on WinoVis, only marginally surpassing random guessing. Further error analysis identifies important areas for future research aimed at advancing text-to-image models in their ability to interpret and interact with the complex visual world.
arxiv情報
著者 | Brendan Park,Madeline Janecek,Naser Ezzati-Jivan,Yifeng Li,Ali Emami |
発行日 | 2024-06-03 16:42:55+00:00 |
arxivサイト | arxiv_id(pdf) |