要約
視覚質問応答 (VQA) に関する大規模な言語および視覚モデルの最近の成功、特に医療への応用 (Med-VQA) は、医療用の効果的な視覚アシスタントを実現する大きな可能性を示しています。
ただし、これらのモデルは臨床現場での幻覚現象については十分にテストされていません。
ここでは、質問と回答のセットと組み合わせた医療画像の幻覚ベンチマークを作成し、最先端のモデルの包括的な評価を実施しました。
この研究では、現在のモデルの限界を詳細に分析し、さまざまなプロンプト戦略の有効性を明らかにしています。
要約(オリジナル)
The recent success of large language and vision models on vision question answering (VQA), particularly their applications in medicine (Med-VQA), has shown a great potential of realizing effective visual assistants for healthcare. However, these models are not extensively tested on the hallucination phenomenon in clinical settings. Here, we created a hallucination benchmark of medical images paired with question-answer sets and conducted a comprehensive evaluation of the state-of-the-art models. The study provides an in-depth analysis of current models limitations and reveals the effectiveness of various prompting strategies.
arxiv情報
著者 | Jinge Wu,Yunsoo Kim,Honghan Wu |
発行日 | 2024-01-11 10:52:17+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google