要約
GPT-4V(ision) は視覚情報と文字情報の両方を同時に見事にモデル化していますが、その幻覚挙動は系統的に評価されていません。
このギャップを埋めるために、ビジュアル言語モデルにおけるバイアスと干渉の課題 (Bingo) という新しいベンチマークを導入します。
このベンチマークは、視覚言語モデルにおける 2 つの一般的なタイプの幻覚、つまりバイアスと干渉を評価し、明らかにするように設計されています。
ここでのバイアスとは、おそらくトレーニング データの不均衡が原因で、特定の種類の応答を幻覚するモデルの傾向を指します。
干渉とは、テキスト プロンプトの表現方法や入力画像の表示方法によって GPT-4V(ision) の判断が妨げられる可能性があるシナリオに関係します。
GPT-4V(ision) は、他の国の画像や他の言語のテキストを含む画像と比較して、西洋の画像や英語で書かれた画像の解釈に優れているという、顕著な地域的偏りを特定しました。
さらに、GPT-4V(ision) は誘導質問に対して脆弱であり、複数の画像を一緒に解釈するときに混乱することがよくあります。
自己修正や思考連鎖推論などの一般的な緩和アプローチは、これらの課題の解決には効果的ではありません。
また、LLaVA と Bard にも同様のバイアスと干渉の脆弱性があることを確認しました。
私たちの結果は、GPT-4V(ision) と最先端の視覚言語モデルにおける幻覚の課題を特徴づけ、新しい解決策の必要性を強調しています。
Bingo ベンチマークは https://github.com/gzcch/Bingo で入手できます。
要約(オリジナル)
While GPT-4V(ision) impressively models both visual and textual information simultaneously, it’s hallucination behavior has not been systematically assessed. To bridge this gap, we introduce a new benchmark, namely, the Bias and Interference Challenges in Visual Language Models (Bingo). This benchmark is designed to evaluate and shed light on the two common types of hallucinations in visual language models: bias and interference. Here, bias refers to the model’s tendency to hallucinate certain types of responses, possibly due to imbalance in its training data. Interference pertains to scenarios where the judgment of GPT-4V(ision) can be disrupted due to how the text prompt is phrased or how the input image is presented. We identify a notable regional bias, whereby GPT-4V(ision) is better at interpreting Western images or images with English writing compared to images from other countries or containing text in other languages. Moreover, GPT-4V(ision) is vulnerable to leading questions and is often confused when interpreting multiple images together. Popular mitigation approaches, such as self-correction and chain-of-thought reasoning, are not effective in resolving these challenges. We also identified similar biases and interference vulnerabilities with LLaVA and Bard. Our results characterize the hallucination challenges in GPT-4V(ision) and state-of-the-art visual-language models, and highlight the need for new solutions. The Bingo benchmark is available at https://github.com/gzcch/Bingo.
arxiv情報
著者 | Chenhang Cui,Yiyang Zhou,Xinyu Yang,Shirley Wu,Linjun Zhang,James Zou,Huaxiu Yao |
発行日 | 2023-11-07 02:18:48+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google