Hallucination Benchmark in Medical Visual Question Answering

要約

視覚質問応答(VQA)における大規模言語・視覚モデル(LLVM)の最近の成功、特に医療における応用(Med-VQA)は、医療のための効果的な視覚支援実現の大きな可能性を示している。しかし、これらのモデルは、臨床現場における幻覚現象について広く検証されていない。本研究では、医療画像と質問・回答セットを組み合わせた幻覚ベンチマークを作成し、最先端モデルの包括的な評価を行った。本研究では、現在のモデルの限界を詳細に分析し、様々なプロンプト戦略の有効性を明らかにする。

要約(オリジナル)

The recent success of large language and vision models (LLVMs) on vision question answering (VQA), particularly their applications in medicine (Med-VQA), has shown a great potential of realizing effective visual assistants for healthcare. However, these models are not extensively tested on the hallucination phenomenon in clinical settings. Here, we created a hallucination benchmark of medical images paired with question-answer sets and conducted a comprehensive evaluation of the state-of-the-art models. The study provides an in-depth analysis of current models’ limitations and reveals the effectiveness of various prompting strategies.

arxiv情報

著者 Jinge Wu,Yunsoo Kim,Honghan Wu
発行日 2024-04-03 12:42:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.CV パーマリンク