要約
憂慮すべき幻覚の増加は、おそらく責任ある AI の進歩にとって最も重大な障害となっています。
最近では、大規模言語モデル (LLM) における幻覚の検出と軽減に重点を置いた研究が行われています。
ただし、幻覚は視覚言語モデル (VLM) にもよく見られることは注目に値します。
この論文では、i) 画像キャプション、ii) 視覚的質問応答 (VQA) という 2 つのタスクに基づいて、VLM 幻覚のプロファイリングに関する詳細な議論を提供します。
我々は幻視の 8 つのきめ細かい方向性を描写します: i) 文脈上の推測、ii) アイデンティティの不一致、iii) 地理的誤り、iv) 視覚的錯覚、v) 性別の異常、vi) 分類器としての VLM、vii) 誤った読み取り、および viii)
数値の不一致。
私たちは、Visual HallucInation eLiciTation (VHILT) をキュレーションしています。これは、キャプションと VQA という 2 つのタスクにわたって 8 つの VLM を使用して生成された 2,000 個のサンプルで構成される、公開されているデータセットであり、前述したカテゴリに対する人間の注釈も含まれています。
要約(オリジナル)
The troubling rise of hallucination presents perhaps the most significant impediment to the advancement of responsible AI. In recent times, considerable research has focused on detecting and mitigating hallucination in Large Language Models (LLMs). However, it’s worth noting that hallucination is also quite prevalent in Vision-Language models (VLMs). In this paper, we offer a fine-grained discourse on profiling VLM hallucination based on two tasks: i) image captioning, and ii) Visual Question Answering (VQA). We delineate eight fine-grained orientations of visual hallucination: i) Contextual Guessing, ii) Identity Incongruity, iii) Geographical Erratum, iv) Visual Illusion, v) Gender Anomaly, vi) VLM as Classifier, vii) Wrong Reading, and viii) Numeric Discrepancy. We curate Visual HallucInation eLiciTation (VHILT), a publicly available dataset comprising 2,000 samples generated using eight VLMs across two tasks of captioning and VQA along with human annotations for the categories as mentioned earlier.
arxiv情報
著者 | Anku Rani,Vipula Rawte,Harshad Sharma,Neeraj Anand,Krishnav Rajbangshi,Amit Sheth,Amitava Das |
発行日 | 2024-03-31 03:52:14+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google