要約
ビジョン言語モデル(VLM)の最近の進歩により、一般的な医療分野での広範な進歩が可能になりました。
しかし、病理学は依然としてより困難なサブドメインのままであり、現在の病理学固有のVLMは、診断の精度と推論の妥当性の両方で制限を示しています。
このような欠点は、主に現実世界の病理学者が採用している深さと構造化された診断パラダイムを欠く画像説明ペアで構成されている現在の病理データセットの性質に大きく起因しています。
この研究では、病理学の教科書と現実世界の病理専門家を活用して、高品質の推論指向のデータセットを構築します。
これに基づいて、マルチモーダルRLベースの病理学推論者であるPato-R1を導入し、3段階のパイプラインで訓練されています。
(2)推論のための500K高品質のチェーンサンプルの監督された微調整。
(3)グループ相対的なポリシーの最適化と分離されたクリップおよびダイナミックサンプリングポリシーの最適化戦略を使用した強化学習マルチモーダル推論の品質改良のための戦略。
データセットのアライメント品質をさらに評価するために、継続的な事前トレーニングに使用される同じフィギュアキャプションコーパスで訓練されたPathoclipを提案します。
包括的な実験結果は、病原体と病原-R1の両方が、ゼロショット分類、クロスモーダル検索、視覚的質問の回答、複数選択質問など、広範囲の病理関連のタスクにわたって堅牢なパフォーマンスを実現することを示しています。
当社のプロジェクトは、Patho-R1リポジトリhttps://github.com/wenchuan-zhang/patho-r1で入手できます。
要約(オリジナル)
Recent advances in vision language models (VLMs) have enabled broad progress in the general medical field. However, pathology still remains a more challenging subdomain, with current pathology specific VLMs exhibiting limitations in both diagnostic accuracy and reasoning plausibility. Such shortcomings are largely attributable to the nature of current pathology datasets, which are primarily composed of image description pairs that lack the depth and structured diagnostic paradigms employed by real world pathologists. In this study, we leverage pathology textbooks and real world pathology experts to construct high-quality, reasoning-oriented datasets. Building on this, we introduce Patho-R1, a multimodal RL-based pathology Reasoner, trained through a three-stage pipeline: (1) continued pretraining on 3.5 million image-text pairs for knowledge infusion; (2) supervised fine-tuning on 500k high-quality Chain-of-Thought samples for reasoning incentivizing; (3) reinforcement learning using Group Relative Policy Optimization and Decoupled Clip and Dynamic sAmpling Policy Optimization strategies for multimodal reasoning quality refinement. To further assess the alignment quality of our dataset, we propose PathoCLIP, trained on the same figure-caption corpus used for continued pretraining. Comprehensive experimental results demonstrate that both PathoCLIP and Patho-R1 achieve robust performance across a wide range of pathology-related tasks, including zero-shot classification, cross-modal retrieval, Visual Question Answering, and Multiple Choice Question. Our project is available at the Patho-R1 repository: https://github.com/Wenchuan-Zhang/Patho-R1.
arxiv情報
著者 | Wenchuan Zhang,Penghao Zhang,Jingru Guo,Tao Cheng,Jie Chen,Shuwan Zhang,Zhang Zhang,Yuhao Yi,Hong Bu |
発行日 | 2025-05-16 16:12:50+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google