A scoping review on multimodal deep learning in biomedical images and texts

要約

将来のコンピュータ支援診断および予後システムは、マルチモーダル データを同時に処理できる必要があります。
画像やテキストなどの複数のデータ ソースの統合を伴うマルチモーダル ディープ ラーニング (MDL) は、生物医学データの分析と解釈に革命をもたらす可能性があります。
しかし、研究者の注目を集めたのはつい最近のことです。
この目的を達成するには、このテーマについて体系的なレビューを実施し、現在の研究の限界を特定し、将来の方向性を模索することが重要です。
このスコープレビューでは、この分野の現状の包括的な概要を提供し、生物医学画像とテキストの共同学習に焦点を当てて、重要な概念、研究の種類、研究のギャップを特定することを目的としています。主に、これら 2 つが最も一般的であったためです。
MDL リサーチで利用可能なデータ型。
この研究では、(1) レポート生成、(2) 視覚的な質問応答、(3) クロスモーダル検索、(4) コンピュータ支援診断、および (5) セマンティック セグメンテーションの 5 つのタスクに関するマルチモーダル ディープ ラーニングの現在の使用法をレビューしました。
私たちの結果は、MDL の多様な用途と可能性を強調し、この分野における将来の研究の方向性を示唆しています。
私たちは、私たちのレビューが自然言語処理 (NLP) と医療画像コミュニティのコラボレーションを促進し、次世代の意思決定とコンピューター支援診断システムの開発をサポートすることを願っています。

要約(オリジナル)

Computer-assisted diagnostic and prognostic systems of the future should be capable of simultaneously processing multimodal data. Multimodal deep learning (MDL), which involves the integration of multiple sources of data, such as images and text, has the potential to revolutionize the analysis and interpretation of biomedical data. However, it only caught researchers’ attention recently. To this end, there is a critical need to conduct a systematic review on this topic, identify the limitations of current work, and explore future directions. In this scoping review, we aim to provide a comprehensive overview of the current state of the field and identify key concepts, types of studies, and research gaps with a focus on biomedical images and texts joint learning, mainly because these two were the most commonly available data types in MDL research. This study reviewed the current uses of multimodal deep learning on five tasks: (1) Report generation, (2) Visual question answering, (3) Cross-modal retrieval, (4) Computer-aided diagnosis, and (5) Semantic segmentation. Our results highlight the diverse applications and potential of MDL and suggest directions for future research in the field. We hope our review will facilitate the collaboration of natural language processing (NLP) and medical imaging communities and support the next generation of decision-making and computer-assisted diagnostic system development.

arxiv情報

著者 Zhaoyi Sun,Mingquan Lin,Qingqing Zhu,Qianqian Xie,Fei Wang,Zhiyong Lu,Yifan Peng
発行日 2023-07-14 14:08:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク