要約
放射線科医は、医療画像を医療レポートに変換するという重要な役割を果たします。
しかし、現場は人材不足と業務量の増加に直面しています。
ビジョン言語モデル (VLM) を使用した自動化アプローチはアシスタントとして有望ですが、非常に高い精度が必要です。
放射線医学における現在の VLM のほとんどは、教師あり微調整 (SFT) のみに依存しています。
一方、一般的な領域では、追加の設定の微調整が標準的な手法となっています。
放射線医学における課題は、放射線科医のフィードバックを得るのに法外なコストがかかることにあります。
私たちは、胸部 X 線 (CXR) レポートの生成に焦点を当て、放射線医学における VLM のためのスケーラブルな自動プリファレンス調整技術を提案します。
私たちの方法では、LLM-as-a-Judge メカニズムを備えた公的に利用可能なデータセットを活用しており、追加の専門放射線科医のフィードバックの必要性を排除しています。
私たちは 5 つのダイレクト アライメント アルゴリズム (DAA) を評価し、ベンチマークを行います。
その結果、SFT ベースラインと比較して、CXR レポートを評価するための LLM ベースの指標である平均 GREEN スコアが最大 57.4% 向上し、6 つの指標 (ドメイン固有および一般) の平均が 9.2% 向上したことがわかりました。
私たちは長さの悪用による報酬の過剰最適化を研究しており、レポートは最大 3.2 倍も長くなっています。
潜在的な調整税を評価するために、追加の 6 つの多様なタスクをベンチマークしましたが、重大な低下は見つかりませんでした。
4 人の認定放射線科医が参加した読者調査では、勝率が SFT ベースラインを最大 0.62 上回る一方で、冗長性が著しく不利になることが示されています。
私たちの分析は、放射線医学のような一か八かの分野における VLM の開発に実用的な洞察を提供します。
要約(オリジナル)
Radiologists play a crucial role by translating medical images into medical reports. However, the field faces staffing shortages and increasing workloads. While automated approaches using vision-language models (VLMs) show promise as assistants, they require exceptionally high accuracy. Most current VLMs in radiology rely solely on supervised fine-tuning (SFT). Meanwhile, in the general domain, additional preference fine-tuning has become standard practice. The challenge in radiology lies in the prohibitive cost of obtaining radiologist feedback. We propose a scalable automated preference alignment technique for VLMs in radiology, focusing on chest X-ray (CXR) report generation. Our method leverages publicly available datasets with an LLM-as-a-Judge mechanism, eliminating the need for additional expert radiologist feedback. We evaluate and benchmark five direct alignment algorithms (DAAs). Our results show up to a 57.4% improvement in average GREEN scores, a LLM-based metric for evaluating CXR reports, and a 9.2% increase in an average across six metrics (domain specific and general), compared to the SFT baseline. We study reward overoptimization via length exploitation, with reports lengthening by up to 3.2x. To assess a potential alignment tax, we benchmark on six additional diverse tasks, finding no significant degradations. A reader study involving four board-certified radiologists indicates win rates of up to 0.62 over the SFT baseline, while significantly penalizing verbosity. Our analysis provides actionable insights for the development of VLMs in high-stakes fields like radiology.
arxiv情報
著者 | Dennis Hein,Zhihong Chen,Sophie Ostmeier,Justin Xu,Maya Varma,Eduardo Pontes Reis,Arne Edward Michalson,Christian Bluethgen,Hyun Joo Shin,Curtis Langlotz,Akshay S Chaudhari |
発行日 | 2024-10-09 16:07:11+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google