要約
マルチモーダルの病理学的イメージの理解により、診断の精度を改善し、統合された視覚データとテキストデータを通じてパーソナライズされた治療を可能にする可能性があるため、広範囲にわたる関心を集めています。
ただし、既存の方法は限られた推論機能を示し、複雑な診断シナリオを処理する能力を妨げます。
さらに、病理学的画像の膨大なサイズは、深刻な計算負荷につながり、実際の展開をさらに制限します。
これらの制限に対処するために、2つの相乗的分岐で構成される新しい二国間強化学習フレームワークを紹介します。
1つの強化枝は、明示的な推論監督なしでラベルから直接タスク固有の決定プロセス、つまり病理学の根拠をモデルが学習できるようにすることにより、推論能力を強化します。
一方、他のブランチは、視覚コンテンツとタスクコンテキストの両方に基づいて、カスタマイズされた数のトークンを異なる画像に動的に割り当て、それにより計算効率を最適化します。
視覚的な質問応答、癌のサブタイピング、病変検出など、さまざまな病理学的タスクに方法を適用します。
広範な実験では、平均+41.7の絶対パフォーマンス改善が示されており、ベースモデルで70.3%の推論コストが低く、推論の精度と計算効率の両方を達成しています。
要約(オリジナル)
Multimodal pathological image understanding has garnered widespread interest due to its potential to improve diagnostic accuracy and enable personalized treatment through integrated visual and textual data. However, existing methods exhibit limited reasoning capabilities, which hamper their ability to handle complex diagnostic scenarios. Additionally, the enormous size of pathological images leads to severe computational burdens, further restricting their practical deployment. To address these limitations, we introduce a novel bilateral reinforcement learning framework comprising two synergistic branches. One reinforcement branch enhances the reasoning capability by enabling the model to learn task-specific decision processes, i.e., pathology rationales, directly from labels without explicit reasoning supervision. While the other branch dynamically allocates a tailored number of tokens to different images based on both their visual content and task context, thereby optimizing computational efficiency. We apply our method to various pathological tasks such as visual question answering, cancer subtyping, and lesion detection. Extensive experiments show an average +41.7 absolute performance improvement with 70.3% lower inference costs over the base models, achieving both reasoning accuracy and computational efficiency.
arxiv情報
著者 | Zhe Xu,Cheng Jin,Yihui Wang,Ziyi Liu,Hao Chen |
発行日 | 2025-05-21 16:03:03+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google