要約
画像キャプションの現在のパラダイムでは、深層学習モデルは、潜在的な特徴の画像埋め込みからテキストを生成するようにトレーニングされます。
私たちは、これらの潜在的な特徴は高次元ベクトルであるはずであり、処理するにはモデルの微調整が必要であるという仮定に異議を唱えます。
ここでは、ラベル ブースト検索拡張生成 (LaB-RAG) を提案します。これは、カテゴリカル ラベルの形式で画像記述子を利用して、事前トレーニング済みの大規模言語モデル (LLM) を使用して標準の検索拡張生成 (RAG) を強化する、画像キャプションへのテキストベースのアプローチです。
私たちは放射線レポート生成 (RRG) のコンテキストでこの方法を研究します。このタスクでは、X 線などの一連の放射線画像から観察の詳細を記載した臨床医のレポートを生成します。
私たちは、抽出された画像埋め込みに対する単純な線形分類器が X 線を放射線学固有のラベルとしてテキスト空間に効果的に変換できると主張します。
標準 RAG と組み合わせて、これらの派生テキスト ラベルを一般ドメイン LLM で使用して放射線レポートを生成できることを示します。
生成言語モデルや画像特徴エンコーダー モデルをトレーニングしたり、LLM に X 線を直接「見せたり」することなく、LaB-RAG が他の検索ベースの RRG と比較して、自然言語および放射線医学言語のメトリクス全体でより良い結果を達成することを実証しました。
他の微調整された視覚言語 RRG モデルと比較して競争力のある結果を達成しながら、
さらに、私たちの方法をよりよく理解するために、LaB-RAG のさまざまなコンポーネントを使用した実験の結果を示します。
最後に、一般的な RRG メトリクスの使用を批判し、真のデータ漏洩なしにその結果を人為的に水増しすることが可能であると主張します。
要約(オリジナル)
In the current paradigm of image captioning, deep learning models are trained to generate text from image embeddings of latent features. We challenge the assumption that these latent features ought to be high-dimensional vectors which require model fine tuning to handle. Here we propose Label Boosted Retrieval Augmented Generation (LaB-RAG), a text-based approach to image captioning that leverages image descriptors in the form of categorical labels to boost standard retrieval augmented generation (RAG) with pretrained large language models (LLMs). We study our method in the context of radiology report generation (RRG), where the task is to generate a clinician’s report detailing their observations from a set of radiological images, such as X-rays. We argue that simple linear classifiers over extracted image embeddings can effectively transform X-rays into text-space as radiology-specific labels. In combination with standard RAG, we show that these derived text labels can be used with general-domain LLMs to generate radiology reports. Without ever training our generative language model or image feature encoder models, and without ever directly ‘showing’ the LLM an X-ray, we demonstrate that LaB-RAG achieves better results across natural language and radiology language metrics compared with other retrieval-based RRG methods, while attaining competitive results compared to other fine-tuned vision-language RRG models. We further present results of our experiments with various components of LaB-RAG to better understand our method. Finally, we critique the use of a popular RRG metric, arguing it is possible to artificially inflate its results without true data-leakage.
arxiv情報
著者 | Steven Song,Anirudh Subramanyam,Irene Madejski,Robert L. Grossman |
発行日 | 2024-11-25 16:10:05+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google