PhD: A ChatGPT-Prompted Visual hallucination Evaluation Dataset

要約

マルチモーダル大規模言語モデル (MLLM) は幻覚を起こし、その結果、幻覚評価 (VHE) という新たなトピックが生じています。
この論文は、大規模な客観的 VHE のための ChatGPT プロンプト幻視評価データセット (PhD) に貢献します。
VHE の本質は、MLLM に特定の画像に関する質問をして、幻覚に対する感受性を評価することです。
質問する内容 (対象、属性、感情など) と質問の仕方に応じて、PhD は 2 つの次元、つまりタスクとモードに沿って構成されます。
低レベル(物体・属性認識)から中レベル(感情・位置認識および計数)までの5つの視覚認識タスクを考慮します。
通常のビジュアル QA モード (PhD ベースと呼ぶ) に加えて、PhD は、不正確なコンテキスト (PhD-iac) または不正確なコンテキスト (PhD-icc)、あるいは AI が生成した常識に反する画像 (PhD-ccs) を使用して質問します。

ChatGPT 支援の半自動パイプラインによって PhD を構築します。これには、タスク固有の幻覚アイテム (hitem) 選択、hitem に埋め込まれた質問生成、不正確/不正確なコンテキスト生成、反常識 (CCS) 画像という 4 つの重要なモジュールが含まれます。
世代。
毎日 14,000 枚を超える画像、合計 750 枚の CCS 画像、および 102,000 個の VQA トリプレットを使用して、博士号はさまざまなモードやタスクにわたる MLLM のパフォーマンスのかなりのばらつきを明らかにし、幻覚の性質について貴重な洞察を提供します。
このように、PhD は VHE にとって強力なツールであるだけでなく、MLLM の改良においても重要な役割を果たす可能性があります。

要約(オリジナル)

Multimodal Large Language Models (MLLMs) hallucinate, resulting in an emerging topic of visual hallucination evaluation (VHE). This paper contributes a ChatGPT-Prompted visual hallucination evaluation Dataset (PhD) for objective VHE at a large scale. The essence of VHE is to ask an MLLM questions about specific images to assess its susceptibility to hallucination. Depending on what to ask (objects, attributes, sentiment, etc.) and how the questions are asked, we structure PhD along two dimensions, i.e., task and mode. Five visual recognition tasks, ranging from low-level (object / attribute recognition) to middle-level (sentiment / position recognition and counting), are considered. Besides a normal visual QA mode, which we term PhD-base, PhD also asks questions with inaccurate context (PhD-iac) or with incorrect context (PhD-icc), or with AI-generated counter common sense images (PhD-ccs). We construct PhD by a ChatGPT-assisted semi-automated pipeline, encompassing four pivotal modules: task-specific hallucinatory item (hitem) selection, hitem-embedded question generation, inaccurate / incorrect context generation, and counter-common-sense (CCS) image generation. With over 14k daily images, 750 CCS images and 102k VQA triplets in total, PhD reveals considerable variability in MLLMs’ performance across various modes and tasks, offering valuable insights into the nature of hallucination. As such, PhD stands as a potent tool not only for VHE but may also play a significant role in the refinement of MLLMs.

arxiv情報

著者 Jiazhen Liu,Yuhan Fu,Ruobing Xie,Runquan Xie,Xingwu Sun,Fengzong Lian,Zhanhui Kang,Xirong Li
発行日 2024-11-18 16:57:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク