要約
医療レポート生成 (MRG) のタスクとみなされる医療キャプション予測には、指定された医療画像に対する一貫性のある正確なキャプションの自動生成が必要です。
しかし、ラベル付き医療画像レポートのペアが不足しているため、大規模言語モデル (LLM) のような潜在的な汎用人工知能能力を利用できる深層大規模ニューラル ネットワークの開発には大きな課題が生じています。
この研究では、特に医療レポートの生成に焦点を当て、コンピュータ ビジョンと自然言語処理において、既製の汎用大規模事前トレーニング済みモデル、つまり基礎モデル (FM) をカスタマイズすることを提案します。
具体的には、最先端のビジョン言語事前トレーニング アプローチである BLIP-2 に続いて、エンコーダー デコーダー ベースの MRG モデルを導入します。
このモデルは、軽量のクエリ Transformer を利用して、巨大なビジョン Transformer EVA-ViT-g と人間の意図に合わせて訓練されたバイリンガル LLM (ChatGLM-6B と呼ばれる) の 2 つの FM を接続します。
さらに、効果的な転移学習のための重要な要素を特定するために、モデルのトレーニング可能なコンポーネントに対してアブレーション実験を実施します。
私たちの調査結果は、EVA-ViT-g を解凍して医療画像表現を学習し、その後、ChatGLM-6B をパラメータ効率よくトレーニングして医療レポートの書き方をキャプチャすることが、最適な結果を達成するために不可欠であることを示しています。
私たちの最高の試み (PCLmed チーム) は、ImageCLEFmedical Caption 2023 キャプション予測タスク コンペティションで、BERTScore と ROUGE-1 メトリクスに基づいて、参加 13 チーム中それぞれ 4 位と 2 位を達成しました。
要約(オリジナル)
Medical caption prediction which can be regarded as a task of medical report generation (MRG), requires the automatic generation of coherent and accurate captions for the given medical images. However, the scarcity of labelled medical image-report pairs presents great challenges in the development of deep and large-scale neural networks capable of harnessing the potential artificial general intelligence power like large language models (LLMs). In this work, we propose customizing off-the-shelf general-purpose large-scale pre-trained models, i.e., foundation models (FMs), in computer vision and natural language processing with a specific focus on medical report generation. Specifically, following BLIP-2, a state-of-the-art vision-language pre-training approach, we introduce our encoder-decoder-based MRG model. This model utilizes a lightweight query Transformer to connect two FMs: the giant vision Transformer EVA-ViT-g and a bilingual LLM trained to align with human intentions (referred to as ChatGLM-6B). Furthermore, we conduct ablative experiments on the trainable components of the model to identify the crucial factors for effective transfer learning. Our findings demonstrate that unfreezing EVA-ViT-g to learn medical image representations, followed by parameter-efficient training of ChatGLM-6B to capture the writing styles of medical reports, is essential for achieving optimal results. Our best attempt (PCLmed Team) achieved the 4th and the 2nd, respectively, out of 13 participating teams, based on the BERTScore and ROUGE-1 metrics, in the ImageCLEFmedical Caption 2023 Caption Prediction Task competition.
arxiv情報
著者 | Bang Yang,Asif Raza,Yuexian Zou,Tong Zhang |
発行日 | 2023-06-09 03:02:36+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google