OphGLM: Training an Ophthalmology Large Language-and-Vision Assistant based on Instructions and Dialogue

要約

大規模なマルチモーダル言語モデル (LMM) は、一般的なドメインで大きな成功を収めています。
ただし、医療画像やテキストと一般的な Web コンテンツとの間には大きな違いがあるため、医療シナリオにおける LMM のパフォーマンスは制限されています。
眼科では、臨床診断は医療画像の複数のモダリティに依存していますが、残念ながら、マルチモーダルな眼科の大規模言語モデルはこれまで研究されていません。
この論文では、眼科用の大規模マルチモーダルモデルを研究および構築します。
まず、眼底画像をエントリ ポイントとして使用して、一般的な眼科疾患の診断と病変のセグメント化を実現する疾患の評価と診断のパイプラインを構築します。
次に、疾患関連の知識データと公的に利用可能な現実の医療対話に基づいて、新しい眼科マルチモーダル指示フォローおよび対話微調整データセットを確立します。
視覚能力を大言語モデルに導入して、眼科大言語視覚アシスタント (OphGLM) を完成させます。
私たちの実験結果は、OphGLM モデルが非常に優れたパフォーマンスを示し、眼科における臨床応用に革命をもたらす可能性があることを示しています。
データセット、コード、モデルは https://github.com/ML-AILab/OphGLM で公開されます。

要約(オリジナル)

Large multimodal language models (LMMs) have achieved significant success in general domains. However, due to the significant differences between medical images and text and general web content, the performance of LMMs in medical scenarios is limited. In ophthalmology, clinical diagnosis relies on multiple modalities of medical images, but unfortunately, multimodal ophthalmic large language models have not been explored to date. In this paper, we study and construct an ophthalmic large multimodal model. Firstly, we use fundus images as an entry point to build a disease assessment and diagnosis pipeline to achieve common ophthalmic disease diagnosis and lesion segmentation. Then, we establish a new ophthalmic multimodal instruction-following and dialogue fine-tuning dataset based on disease-related knowledge data and publicly available real-world medical dialogue. We introduce visual ability into the large language model to complete the ophthalmic large language and vision assistant (OphGLM). Our experimental results demonstrate that the OphGLM model performs exceptionally well, and it has the potential to revolutionize clinical applications in ophthalmology. The dataset, code, and models will be made publicly available at https://github.com/ML-AILab/OphGLM.

arxiv情報

著者 Weihao Gao,Zhuo Deng,Zhiyuan Niu,Fuju Rong,Chucheng Chen,Zheng Gong,Wenze Zhang,Daimin Xiao,Fang Li,Zhenjie Cao,Lan Ma
発行日 2023-06-21 11:09:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク