Med-UniC: Unifying Cross-Lingual Medical Vision-Language Pre-Training by Diminishing Bias

要約

データの不足は、医療ビジョン言語事前トレーニング (VLP) の有効性にとって重大な障害となっています。
潜在的な解決策は、さまざまな言語コミュニティからのデータセットを組み合わせることにあります。
それにもかかわらず、主な課題は、多様な構文と意味論、言語固有の医療用語、文化固有の暗黙知を統合する複雑さに起因しています。
したがって、考慮すべき重要な側面の 1 つは、言語の違いによって引き起こされるコミュニティの偏見の存在です。
この論文では、最も普及している 2 つの言語、英語とスペイン語からのマルチモーダル医療データを統合するように設計された、Unifying Cross-Lingual Medical Vision-Language Pre-Training (Med-UniC) という新しいフレームワークを紹介します。
具体的には、多様な言語コミュニティから発信された医療レポートの言語を越えた意味表現を明示的に統一するための、言語を越えた Text Alignment Regularization (CTR) を提案します。
CTR は潜在的な言語のもつれを解くことによって最適化され、陰性サンプルに依存しないという最適化目標が実現され、それによって類似の医療レポート内で陽性と陰性のサンプルのペアを決定する際のバイアスが大幅に軽減されます。
さらに、言語を超えた表現が特定の言語コミュニティに偏っていないことを保証します。
Med-UniC は、5 つの医療画像タスクと 30 を超える疾患を含む 10 のデータセットにわたって優れたパフォーマンスを達成し、多様な言語コミュニティ内でマルチモーダルな医療データを統合するための多用途のフレームワークを提供します。
実験結果は、言語を超えた VLP におけるコミュニティバイアスの存在を浮き彫りにしました。
このバイアスを軽減すると、視覚言語タスクだけでなく、単峰性の視覚タスクでもパフォーマンスが向上します。

要約(オリジナル)

The scarcity of data presents a critical obstacle to the efficacy of medical visionlanguage pre-training (VLP). A potential solution lies in the combination of datasets from various language communities. Nevertheless, the main challenge stems from the complexity of integrating diverse syntax and semantics, language-specific medical terminology, and culture-specific implicit knowledge. Therefore, one crucial aspect to consider is the presence of community bias caused by different languages. This paper presents a novel framework named Unifying Cross-Lingual Medical Vision-Language Pre-Training (Med-UniC), designed to integrate multimodal medical data from the two most prevalent languages, English and Spanish. Specifically, we propose Cross-lingual Text Alignment Regularization (CTR) to explicitly unify cross-lingual semantic representations of medical reports originating from diverse language communities. CTR is optimized through latent language disentanglement, rendering our optimization objective to not depend on negative samples, thereby significantly mitigating the bias from determining positive-negative sample pairs within analogous medical reports. Furthermore, it ensures that the cross-lingual representation is not biased toward any specific language community. Med-UniC reaches superior performance across 5 medical image tasks and 10 datasets encompassing over 30 diseases, offering a versatile framework for unifying multi-modal medical data within diverse linguistic communities. The experimental outcomes highlight the presence of community bias in cross-lingual VLP. Reducing this bias enhances the performance not only in vision-language tasks but also in uni-modal visual tasks.

arxiv情報

著者 Zhongwei Wan,Che Liu,Mi Zhang,Jie Fu,Benyou Wang,Sibo Cheng,Lei Ma,César Quilodrán-Casas,Rossella Arcucci
発行日 2023-09-25 18:58:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV パーマリンク