要約
統一された自己回帰パラダイム内に医学的視覚的理解と生成能力を統合する強力な医療大規模視覚モデル(MED-LVLM)であるHealthGptを提示します。
私たちのブートストラップ哲学は、不均一な理解と生成の知識を事前に訓練された大手言語モデル(LLM)に徐々に適応させることです。
これは、カスタマイズされた階層的視覚知覚アプローチと3段階の学習戦略によって補完される、新しい不均一な低ランク適応(H-LORA)技術によって達成されます。
HealthGPTを効果的に学ぶために、VL-Healthと呼ばれる包括的な医療ドメイン固有の理解と生成データセットを考案します。
実験結果は、医療視覚統一タスクにおけるHealthGPTの並外れたパフォーマンスとスケーラビリティを示しています。
当社のプロジェクトは、https://github.com/dcdmllm/healthgptでアクセスできます。
要約(オリジナル)
We present HealthGPT, a powerful Medical Large Vision-Language Model (Med-LVLM) that integrates medical visual comprehension and generation capabilities within a unified autoregressive paradigm. Our bootstrapping philosophy is to progressively adapt heterogeneous comprehension and generation knowledge to pre-trained large language models (LLMs). This is achieved through a novel heterogeneous low-rank adaptation (H-LoRA) technique, which is complemented by a tailored hierarchical visual perception approach and a three-stage learning strategy. To effectively learn the HealthGPT, we devise a comprehensive medical domain-specific comprehension and generation dataset called VL-Health. Experimental results demonstrate exceptional performance and scalability of HealthGPT in medical visual unified tasks. Our project can be accessed at https://github.com/DCDmllm/HealthGPT.
arxiv情報
著者 | Tianwei Lin,Wenqiao Zhang,Sijing Li,Yuqian Yuan,Binhe Yu,Haoyuan Li,Wanggui He,Hao Jiang,Mengze Li,Xiaohui Song,Siliang Tang,Jun Xiao,Hui Lin,Yueting Zhuang,Beng Chin Ooi |
発行日 | 2025-02-17 17:17:44+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google