PathInsight: Instruction Tuning of Multimodal Datasets and Models for Intelligence Assisted Diagnosis in Histopathology

要約

病理学的診断は依然として腫瘍を特定するための最終的な標準です。
マルチモーダルな大規模モデルの台頭により、画像分析とテキストによる説明を統合するプロセスが簡素化されました。
このような進歩にも関わらず、これらの複雑なマルチモーダル モデルのトレーニングと導入に関連する多額のコストと、高品質のトレーニング データセットの不足により、最先端のテクノロジーと臨床現場でのその応用との間に大きな隔たりが生じています。
私たちは、臓器組織の分類、病理レポートの説明の作成、病理関連の質問と回答への対応など、6 つ以上の異なるタスクをカバーする約 45,000 件のデータセットを細心の注意を払って編集しました。
このデータセットを使用してマルチモーダル大規模モデル、特に LLaVA、Qwen-VL、InternLM を微調整して、命令ベースのパフォーマンスを強化しました。
特定のデータセットに対して画像キャプションおよび分類タスクを実行する際の、ベース モデルと微調整モデルの機能の定性的評価を実施しました。
評価結果は、微調整されたモデルが典型的な病理学的問題に対処する能力を示していることを示しています。
私たちは、モデルとデータセットの両方を一般公開することで、医療および研究コミュニティにとって価値のあるものになればと考えています。

要約(オリジナル)

Pathological diagnosis remains the definitive standard for identifying tumors. The rise of multimodal large models has simplified the process of integrating image analysis with textual descriptions. Despite this advancement, the substantial costs associated with training and deploying these complex multimodal models, together with a scarcity of high-quality training datasets, create a significant divide between cutting-edge technology and its application in the clinical setting. We had meticulously compiled a dataset of approximately 45,000 cases, covering over 6 different tasks, including the classification of organ tissues, generating pathology report descriptions, and addressing pathology-related questions and answers. We have fine-tuned multimodal large models, specifically LLaVA, Qwen-VL, InternLM, with this dataset to enhance instruction-based performance. We conducted a qualitative assessment of the capabilities of the base model and the fine-tuned model in performing image captioning and classification tasks on the specific dataset. The evaluation results demonstrate that the fine-tuned model exhibits proficiency in addressing typical pathological questions. We hope that by making both our models and datasets publicly available, they can be valuable to the medical and research communities.

arxiv情報

著者 Xiaomin Wu,Rui Xu,Pengchen Wei,Wenkang Qin,Peixiang Huang,Ziheng Li,Lin Luo
発行日 2024-08-13 17:05:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク