要約
幻覚は大規模な言語モデルにとって大きな問題であり、視覚言語モデル (VLM) がテキスト入力だけでなく視覚入力も処理しなければならないマルチモダリティに関しては依然として重大な課題です。
VLM の急速な進歩にも関わらず、多峰性幻覚を評価し対処するためのリソースは限られており、ほとんどが評価に焦点を当てています。
この研究では、誤った前提、不十分なコンテキスト、視覚的課題など、マルチモーダル幻覚のさまざまな側面を捕捉する、新しい視覚的質問応答データセットである HaloQuest を紹介します。
HaloQuest の新しいアイデアは、実際の画像とは別に合成画像を活用して、大規模なデータセットの作成を可能にすることです。
さまざまなカテゴリにまたがる 7,700 を超えるサンプルを備えた HaloQuest は、VLM の挑戦的なベンチマークであると同時に、マルチモーダル推論を進めるための微調整データセットとしても設計されています。
私たちの実験では、現在のモデルが HaloQuest に苦戦しており、すべてのオープンソース VLM の精度が 36% 未満であることが明らかになりました。
一方、HaloQuest を微調整すると、標準的な推論タスクのパフォーマンスを維持しながら、幻覚率が大幅に減少します。
私たちの結果では、生成された画像を使用したベンチマークが実際の画像と高度に相関している (r=0.97) ことがわかりました。
最後に重要なことですが、VLM を評価するために人間の評価者 (r=0.99) と高度に相関する新しい Auto-Eval メカニズムを提案します。
まとめると、この研究は VLM における幻覚の理解、評価、軽減に向けて具体的に前進し、将来のより信頼性の高いマルチモーダル AI システムに向けた重要な一歩として役立ちます。
要約(オリジナル)
Hallucination has been a major problem for large language models and remains a critical challenge when it comes to multimodality in which vision-language models (VLMs) have to deal with not just textual but also visual inputs. Despite rapid progress in VLMs, resources for evaluating and addressing multimodal hallucination are limited and mostly focused on evaluation. This work introduces HaloQuest, a novel visual question answering dataset that captures various aspects of multimodal hallucination such as false premises, insufficient contexts, and visual challenges. A novel idea from HaloQuest is to leverage synthetic images, apart from real ones, to enable dataset creation at scale. With over 7.7K examples spanning across a wide variety of categories, HaloQuest was designed to be both a challenging benchmark for VLMs and a fine-tuning dataset for advancing multimodal reasoning. Our experiments reveal that current models struggle with HaloQuest, with all open-source VLMs achieving below 36% accuracy. On the other hand, fine-tuning on HaloQuest significantly reduces hallucination rates while preserving performance on standard reasoning tasks. Our results discover that benchmarking with generated images is highly correlated (r=0.97) with real images. Last but not least, we propose a novel Auto-Eval mechanism that is highly correlated with human raters (r=0.99) for evaluating VLMs. In sum, this work makes concrete strides towards understanding, evaluating, and mitigating hallucination in VLMs, serving as an important step towards more reliable multimodal AI systems in the future.
arxiv情報
著者 | Zhecan Wang,Garrett Bingham,Adams Yu,Quoc Le,Thang Luong,Golnaz Ghiasi |
発行日 | 2024-07-22 14:49:51+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google