Multimodal ChatGPT for Medical Applications: an Experimental Study of GPT-4V

要約

この論文では、Visual Question Answering (VQA) タスクにおける、最先端のマルチモーダル大規模言語モデル、つまり GPT-4 with Vision (GPT-4V) の機能を批判的に評価します。
私たちの実験では、11 のモダリティ (顕微鏡、ダーモスコピー、X 線、CT など) と 15 の対象物 (脳、肝臓、肺、
等。)。
当社のデータセットには、16 種類の異なる質問を含む、包括的な医療質問が含まれています。
評価全体を通して、私たちは GPT-4V のテキスト プロンプトを考案し、視覚情報とテキスト情報を相乗させるように指示しました。
精度スコアを用いた実験では、現在のバージョンの GPT-4V は、診断上の医学的質問に対する応答の信頼性が低く最適ではないため、現実の診断には推奨されないと結論付けています。
さらに、医療 VQA における GPT-4V の動作の 7 つのユニークな側面を概説し、この複雑な分野における GPT-4V の制約を強調します。
評価ケースの完全な詳細は、https://github.com/ZhilingYan/GPT4V-Medical-Report からアクセスできます。

要約(オリジナル)

In this paper, we critically evaluate the capabilities of the state-of-the-art multimodal large language model, i.e., GPT-4 with Vision (GPT-4V), on Visual Question Answering (VQA) task. Our experiments thoroughly assess GPT-4V’s proficiency in answering questions paired with images using both pathology and radiology datasets from 11 modalities (e.g. Microscopy, Dermoscopy, X-ray, CT, etc.) and fifteen objects of interests (brain, liver, lung, etc.). Our datasets encompass a comprehensive range of medical inquiries, including sixteen distinct question types. Throughout our evaluations, we devised textual prompts for GPT-4V, directing it to synergize visual and textual information. The experiments with accuracy score conclude that the current version of GPT-4V is not recommended for real-world diagnostics due to its unreliable and suboptimal accuracy in responding to diagnostic medical questions. In addition, we delineate seven unique facets of GPT-4V’s behavior in medical VQA, highlighting its constraints within this complex arena. The complete details of our evaluation cases are accessible at https://github.com/ZhilingYan/GPT4V-Medical-Report.

arxiv情報

著者 Zhiling Yan,Kai Zhang,Rong Zhou,Lifang He,Xiang Li,Lichao Sun
発行日 2023-10-29 16:26:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク