要約
視覚質問応答(VQA)における大規模言語・視覚モデル(LLVM)の最近の成功、特に医療における応用(Med-VQA)は、医療のための効果的な視覚支援実現の大きな可能性を示している。しかし、これらのモデルは、臨床現場における幻覚現象について広く検証されていない。本研究では、医療画像と質問・回答セットを組み合わせた幻覚ベンチマークを作成し、最先端モデルの包括的な評価を行った。本研究では、現在のモデルの限界を詳細に分析し、様々なプロンプト戦略の有効性を明らかにする。
要約(オリジナル)
The recent success of large language and vision models (LLVMs) on vision question answering (VQA), particularly their applications in medicine (Med-VQA), has shown a great potential of realizing effective visual assistants for healthcare. However, these models are not extensively tested on the hallucination phenomenon in clinical settings. Here, we created a hallucination benchmark of medical images paired with question-answer sets and conducted a comprehensive evaluation of the state-of-the-art models. The study provides an in-depth analysis of current models’ limitations and reveals the effectiveness of various prompting strategies.
arxiv情報
| 著者 | Jinge Wu,Yunsoo Kim,Honghan Wu |
| 発行日 | 2024-04-03 12:42:32+00:00 |
| arxivサイト | arxiv_id(pdf) |