要約
大規模言語モデル (LLM) は、複雑な医療および生物医学のトピックを理解する能力の新時代をもたらしました。
しかし、英語以外の言語のモデルや、世界的な医療アクセスにとって重要なマルチモーダル入力を解釈できるモデルが著しく不足しています。
これに応えて、この研究では、テキストデータとビジュアルデータの分析を統合するように設計された中国初の大規模視覚言語モデルである Qilin-Med-VL を紹介します。
Qilin-Med-VL は、事前トレーニングされたビジョン トランスフォーマー (ViT) と基本的な LLM を組み合わせています。
機能の調整と指導の調整を含む、徹底的な 2 段階のカリキュラム トレーニング プロセスを経ます。
この方法により、医療キャプションを生成し、複雑な医療質問に答えるモデルの機能が強化されます。
また、100 万を超える画像とテキストのペアで構成されるデータセットである ChiMed-VL もリリースします。
このデータセットは、さまざまな種類の画像を使用して医療データを詳細かつ包括的に解釈できるように慎重に精選されています。
要約(オリジナル)
Large Language Models (LLMs) have introduced a new era of proficiency in comprehending complex healthcare and biomedical topics. However, there is a noticeable lack of models in languages other than English and models that can interpret multi-modal input, which is crucial for global healthcare accessibility. In response, this study introduces Qilin-Med-VL, the first Chinese large vision-language model designed to integrate the analysis of textual and visual data. Qilin-Med-VL combines a pre-trained Vision Transformer (ViT) with a foundational LLM. It undergoes a thorough two-stage curriculum training process that includes feature alignment and instruction tuning. This method enhances the model’s ability to generate medical captions and answer complex medical queries. We also release ChiMed-VL, a dataset consisting of more than 1M image-text pairs. This dataset has been carefully curated to enable detailed and comprehensive interpretation of medical data using various types of images.
arxiv情報
著者 | Junling Liu,Ziming Wang,Qichen Ye,Dading Chong,Peilin Zhou,Yining Hua |
発行日 | 2023-11-01 07:10:23+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google