Competence-based Multimodal Curriculum Learning for Medical Report Generation


タイトル: 医療レポート生成のための能力ベースのマルチモーダルカリキュラム学習

– 医療画像の長く連続した説明を生み出す医療レポート生成のタスクは、最近注目を集めている。
– 一般的な画像説明タスクとは異なり、データ駆動ニューラルモデルにとってより困難である。
– これは主に、1)深刻なデータ偏りと、2)限られた医療データに起因する。
– データバイアスを軽減し、利用可能なデータを最大限に活用するために、能力ベースのマルチモーダルカリキュラム学習フレームワーク(CMCL)を提案する。
– 具体的には、CMCLは放射線科医の学習プロセスをシミュレートし、段階的にモデルを最適化する。
– まず、CMCLは各訓練インスタンスの難易度を推定し、現在のモデルの能力を評価する。
– 次に、現在のモデルの能力を考慮して、最も適したトレーニングインスタンスのバッチを選択する。
– 上記2つのステップを繰り返すことで、CMCLはモデルのパフォーマンスを段階的に改善できる。
– 公開されたIU-XrayおよびMIMIC-CXRデータセットでの実験では、CMCLを既存のモデルに組み込むことで、性能を改善できることを示した。


Medical report generation task, which targets to produce long and coherent descriptions of medical images, has attracted growing research interests recently. Different from the general image captioning tasks, medical report generation is more challenging for data-driven neural models. This is mainly due to 1) the serious data bias and 2) the limited medical data. To alleviate the data bias and make best use of available data, we propose a Competence-based Multimodal Curriculum Learning framework (CMCL). Specifically, CMCL simulates the learning process of radiologists and optimizes the model in a step by step manner. Firstly, CMCL estimates the difficulty of each training instance and evaluates the competence of current model; Secondly, CMCL selects the most suitable batch of training instances considering current model competence. By iterating above two steps, CMCL can gradually improve the model’s performance. The experiments on the public IU-Xray and MIMIC-CXR datasets show that CMCL can be incorporated into existing models to improve their performance.


著者 Fenglin Liu,Shen Ge,Yuexian Zou,Xian Wu
発行日 2023-04-11 06:23:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, OpenAI

カテゴリー: cs.CL, cs.CV, cs.LG パーマリンク