On the Importance of Text Preprocessing for Multimodal Representation Learning and Pathology Report Generation

要約

病理学のビジョン言語モデルにより、マルチモーダルケースの検索と自動レポート生成が可能になります。
しかし、これまでに開発されたモデルの多くは、ペアの全体的なスライド画像(患者の歴史など)から推測できない情報を含む病理学レポートの訓練を受けており、生成されたレポートで幻覚を引き起こす可能性があります。
この目的のために、視覚言語モデリングの病理レポートからの情報の選択が、マルチモーダル表現と生成されたレポートの品質にどのように影響するかを調査します。
より具体的には、H&E染色スライドに基づいた細胞と組織の外観を説明する文のみを含む、前処理されたレポートでトレーニングされたモデルに対して完全なレポートでトレーニングされたモデルを比較します。
実験では、BLIP-2フレームワークの上に構築され、42,433 H&E染色全体のスライド画像と19,636の対応する病理報告の皮膚メラニン細胞病変データセットを使用しました。
モデルのパフォーマンスは、画像からテキスト、テキストから画像の検索、および専門家の病理学者による生成されたレポートの定性的評価を使用して評価されました。
私たちの結果は、テキストの前処理が報告の生成における幻覚を防ぐことを示しています。
生成されたレポートの品質の改善にもかかわらず、完全なレポートでビジョン言語モデルをトレーニングすることで、モーダルの検索パフォーマンスが向上しました。

要約(オリジナル)

Vision-language models in pathology enable multimodal case retrieval and automated report generation. Many of the models developed so far, however, have been trained on pathology reports that include information which cannot be inferred from paired whole slide images (e.g., patient history), potentially leading to hallucinated sentences in generated reports. To this end, we investigate how the selection of information from pathology reports for vision-language modeling affects the quality of the multimodal representations and generated reports. More concretely, we compare a model trained on full reports against a model trained on preprocessed reports that only include sentences describing the cell and tissue appearances based on the H&E-stained slides. For the experiments, we built upon the BLIP-2 framework and used a cutaneous melanocytic lesion dataset of 42,433 H&E-stained whole slide images and 19,636 corresponding pathology reports. Model performance was assessed using image-to-text and text-to-image retrieval, as well as qualitative evaluation of the generated reports by an expert pathologist. Our results demonstrate that text preprocessing prevents hallucination in report generation. Despite the improvement in the quality of the generated reports, training the vision-language model on full reports showed better cross-modal retrieval performance.

arxiv情報

著者 Ruben T. Lucassen,Tijn van de Luijtgaarden,Sander P. J. Moonemans,Gerben E. Breimer,Willeke A. M. Blokx,Mitko Veta
発行日 2025-02-26 16:45:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク