XrayGPT: Chest Radiographs Summarization using Medical Vision-Language Models

要約

Bard や GPT-4 などの大規模ビジョン言語モデルにおける最新のブレークスルーは、幅広いタスクを実行する際の並外れた能力を実証しました。
このようなモデルは、さまざまなタスクを伴う数十億の公開画像とテキストのペアで構成される大規模なデータセットでトレーニングされます。
しかし、放射線医学などの特定のタスク領域でのパフォーマンスはまだ調査が不十分であり、生物医学画像の理解が洗練されていないため、制限される可能性があります。
一方、会話型医療モデルは目覚ましい成功を収めていますが、主にテキストベースの分析に焦点を当てています。
この論文では、胸部 X線写真に関する自由形式の質問を分析して答えることができる、新しい会話型医療視覚言語モデルである XrayGPT を紹介します。
具体的には、単純な線形変換を使用して、医療用ビジュアル エンコーダ (MedClip) と微調整された大規模言語モデル (Vicuna) の両方を調整します。
この調整により、X 線写真と医療分野の知識に対する深い理解に基づいて、モデルが優れた視覚的会話能力を持つことが可能になります。
医療分野における LLM のパフォーマンスを向上させるために、フリーテキストの放射線医学レポートから約 217,000 のインタラクティブで高品質な要約を生成します。
これらの概要は、微調整プロセスを通じて LLM のパフォーマンスを向上させるのに役立ちます。
私たちのアプローチは、胸部 X 線写真の自動分析を進めるための研究に新たな道を開きます。
オープンソースのデモ、モデル、命令セットは、https://github.com/mbzuai-oryx/XrayGPT から入手できます。

要約(オリジナル)

The latest breakthroughs in large vision-language models, such as Bard and GPT-4, have showcased extraordinary abilities in performing a wide range of tasks. Such models are trained on massive datasets comprising billions of public image-text pairs with diverse tasks. However, their performance on task-specific domains, such as radiology, is still under-investigated and potentially limited due to a lack of sophistication in understanding biomedical images. On the other hand, conversational medical models have exhibited remarkable success but have mainly focused on text-based analysis. In this paper, we introduce XrayGPT, a novel conversational medical vision-language model that can analyze and answer open-ended questions about chest radiographs. Specifically, we align both medical visual encoder (MedClip) with a fine-tuned large language model (Vicuna), using a simple linear transformation. This alignment enables our model to possess exceptional visual conversation abilities, grounded in a deep understanding of radiographs and medical domain knowledge. To enhance the performance of LLMs in the medical context, we generate ~217k interactive and high-quality summaries from free-text radiology reports. These summaries serve to enhance the performance of LLMs through the fine-tuning process. Our approach opens up new avenues the research for advancing the automated analysis of chest radiographs. Our open-source demos, models, and instruction sets are available at: https://github.com/mbzuai-oryx/XrayGPT.

arxiv情報

著者 Omkar Thawkar,Abdelrahman Shaker,Sahal Shaji Mullappilly,Hisham Cholakkal,Rao Muhammad Anwer,Salman Khan,Jorma Laaksonen,Fahad Shahbaz Khan
発行日 2023-06-13 17:59:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク