Making the Most of Text Semantics to Improve Biomedical Vision–Language Processing

要約

放射線画像やレポートなど、生物医学にはマルチモーダルデータが豊富にあります。
このデータを大規模に解釈することは、臨床ケアを改善し、臨床研究を加速するために不可欠です。
複雑なセマンティクスを持つ生物医学テキストは、視覚に追加の課題をもたらします。一般的なドメインと比較して言語モデリングであり、以前の研究では、ドメイン固有の言語理解が不足している適応が不十分なモデルを使用していました。
この論文では、原理的なテキストセマンティックモデリングが、自己教師あり視覚(言語処理)における対照的な学習を大幅に改善できることを示します。
放射線医学レポートのセマンティクスと談話特性を活用した語彙と新しい言語の事前トレーニングの目的を改善することにより、放射線医学の自然言語推論で最先端の結果を達成する言語モデルをリリースします。
さらに、より良いテキストモデリングに焦点を当てた自己監視共同ビジョン-言語アプローチを提案します。
これは、一部には新しいドメイン固有言語モデルを活用することにより、公開されているさまざまなベンチマークで新しい最先端の結果を確立します。
生物医学的視覚における複雑なセマンティックモデリング、つまり言語処理の研究を容易にするために、放射線科医によるローカルに配置されたフレーズグラウンディングアノテーションを備えた新しいデータセットをリリースします。
この新しいデータセットを含む広範な評価は、テキストセマンティックモデリングによって支援された対照的な学習アプローチが、グローバルアラインメントの目的のみを使用しているにもかかわらず、セグメンテーションタスクの以前の方法よりも優れていることを示しています。

要約(オリジナル)

Multi-modal data abounds in biomedicine, such as radiology images and reports. Interpreting this data at scale is essential for improving clinical care and accelerating clinical research. Biomedical text with its complex semantics poses additional challenges in vision–language modelling compared to the general domain, and previous work has used insufficiently adapted models that lack domain-specific language understanding. In this paper, we show that principled textual semantic modelling can substantially improve contrastive learning in self-supervised vision–language processing. We release a language model that achieves state-of-the-art results in radiology natural language inference through its improved vocabulary and novel language pretraining objective leveraging semantics and discourse characteristics in radiology reports. Further, we propose a self-supervised joint vision–language approach with a focus on better text modelling. It establishes new state of the art results on a wide range of publicly available benchmarks, in part by leveraging our new domain-specific language model. We release a new dataset with locally-aligned phrase grounding annotations by radiologists to facilitate the study of complex semantic modelling in biomedical vision–language processing. A broad evaluation, including on this new dataset, shows that our contrastive learning approach, aided by textual-semantic modelling, outperforms prior methods in segmentation tasks, despite only using a global-alignment objective.

arxiv情報

著者 Benedikt Boecking,Naoto Usuyama,Shruthi Bannur,Daniel C. Castro,Anton Schwaighofer,Stephanie Hyland,Maria Wetscherek,Tristan Naumann,Aditya Nori,Javier Alvarez-Valle,Hoifung Poon,Ozan Oktay
発行日 2022-07-21 14:46:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク