Eye-gaze Guided Multi-modal Alignment Framework for Radiology

要約

マルチモーダル フレームワークでは、クロスモーダル機能の調整が大きな課題となります。
マルチモーダル事前トレーニングにおける主なアプローチは、広範なデータセットを利用して、モダリティ間のグローバルまたはローカルの調整を強調します。
このボトムアップ主導の方法は、放射線医学における重大な懸念である解釈可能性の欠如に悩まされることがよくあります。
これまでの研究では、医療画像やテキストに高レベルのラベルが統合されていましたが、依然としてコストと労働集約的なプロセスである手動の注釈に依存しています。
私たちの研究では、放射線科医が診断評価中に同時に収集した視線データを使用する新しいアプローチを導入しています。
放射線科医の重点領域を示すこのデータは、胸部 X 線写真と診断テキストを自然に結び付けます。
私たちは、視線データを利用して画像とテキストの特徴をより適切に位置合わせするための視線誘導マルチモーダル アライメント (EGMA) フレームワークを提案します。これは、手動による注釈への依存を減らし、トレーニング コストを削減することを目的としています。
私たちのモデルは堅牢なパフォーマンスを実証し、ゼロショット分類および検索タスクにおいて他の最先端の手法を上回ります。
日常的な放射線診断中に簡単に取得できる視線データを組み込むことは、手動によるアノテーションへの依存を最小限に抑えるための一歩を意味します。
さらに、さまざまな量の視線データがモデルのパフォーマンスに与える影響を調査し、この補助データをマルチモーダル事前トレーニングに統合する実現可能性と有用性を強調します。

要約(オリジナル)

In multi-modal frameworks, the alignment of cross-modal features presents a significant challenge. The predominant approach in multi-modal pre-training emphasizes either global or local alignment between modalities, utilizing extensive datasets. This bottom-up driven method often suffers from a lack of interpretability, a critical concern in radiology. Previous studies have integrated high-level labels in medical images or text, but these still rely on manual annotation, a costly and labor-intensive process. Our work introduces a novel approach by using eye-gaze data, collected synchronously by radiologists during diagnostic evaluations. This data, indicating radiologists’ focus areas, naturally links chest X-rays to diagnostic texts. We propose the Eye-gaze Guided Multi-modal Alignment (EGMA) framework to harness eye-gaze data for better alignment of image and text features, aiming to reduce reliance on manual annotations and thus cut training costs. Our model demonstrates robust performance, outperforming other state-of-the-art methods in zero-shot classification and retrieval tasks. The incorporation of easily-obtained eye-gaze data during routine radiological diagnoses signifies a step towards minimizing manual annotation dependency. Additionally, we explore the impact of varying amounts of eye-gaze data on model performance, highlighting the feasibility and utility of integrating this auxiliary data into multi-modal pre-training.

arxiv情報

著者 Chong Ma,Hanqi Jiang,Wenting Chen,Zihao Wu,Xiaowei Yu,Fang Zeng,Lei Guo,Dajiang Zhu,Tuo Zhang,Dinggang Shen,Tianming Liu,Xiang Li
発行日 2024-04-12 03:15:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T07, cs.CL, cs.CV, I.2.0 パーマリンク