Multi-modal Pre-training for Medical Vision-language Understanding and Generation: An Empirical Study with A New Benchmark

要約

MSCOCO などの大規模で包括的な汎用ビジョン言語 (VL) データセットが利用できるようになったことで、ビジョン言語事前トレーニング (VLP) が活発な研究領域となり、さまざまな VL タスクに効果的であることが証明されています。
視覚的な質問応答など。
しかし、医療分野における VLP に関する研究はこれまでのところ不足しています。
医療 VL タスクの VLP に関する包括的な視点を提供するために、統合ビジョン言語トランスフォーマーを使用した VLP のパフォーマンスに影響を与える可能性のある主要な要因を研究するための徹底的な実験分析を実施します。
適切かつ迅速なトレーニング前の決定を可能にするために、オープンアクセスのオンライン データベース MedPix から収集された 18,434 個の画像とキャプションのペアを含む高品質のマルチモダリティ放射線写真データセットである RadioGraphy Captions (RGC) を提案します。
RGC は、事前トレーニング データセットまたは医療レポート生成および医療画像テキスト検索の新しいベンチマークとして使用できます。
RGC やその他の利用可能なデータセットを事前トレーニングに利用することで、将来の医療 VLP 研究の指針となるいくつかの重要な洞察と、さまざまな医療 VL タスクの新しい強力なベースラインを開発します。

要約(オリジナル)

With the availability of large-scale, comprehensive, and general-purpose vision-language (VL) datasets such as MSCOCO, vision-language pre-training (VLP) has become an active area of research and proven to be effective for various VL tasks such as visual-question answering. However, studies on VLP in the medical domain have so far been scanty. To provide a comprehensive perspective on VLP for medical VL tasks, we conduct a thorough experimental analysis to study key factors that may affect the performance of VLP with a unified vision-language Transformer. To allow making sound and quick pre-training decisions, we propose RadioGraphy Captions (RGC), a high-quality, multi-modality radiographic dataset containing 18,434 image-caption pairs collected from an open-access online database MedPix. RGC can be used as a pre-training dataset or a new benchmark for medical report generation and medical image-text retrieval. By utilizing RGC and other available datasets for pre-training, we develop several key insights that can guide future medical VLP research and new strong baselines for various medical VL tasks.

arxiv情報

著者 Li Xu,Bo Liu,Ameer Hamza Khan,Lu Fan,Xiao-Ming Wu
発行日 2023-08-24 07:52:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク