R2GenGPT: Radiology Report Generation with Frozen LLMs

要約

大規模言語モデル (LLM) は、さまざまな言語タスクに適用された場合に、優れた一般化機能を一貫して実証してきました。
それにもかかわらず、LLM の可能性を放射線レポート生成 (R2Gen) に最大限に活用することには、LLM と R2Gen タスク間のモダリティにおける固有の差異に起因する課題が依然として存在します。
このギャップを効果的に埋めるために、私たちは R2GenGPT を提案します。これは、効率的な視覚的位置合わせモジュールを使用して視覚的特徴を LLM の単語埋め込み空間と位置合わせする新しいソリューションです。
この革新的なアプローチにより、これまで静的だった LLM が画像情報をシームレスに統合して処理できるようになり、R2Gen のパフォーマンスの最適化が一歩前進しました。
R2GenGPT には次の利点があります。
まず、LLM のすべてのパラメーターをフリーズしながら、軽量のビジュアル アライメント モジュールのみをトレーニングすることで、最先端 (SOTA) のパフォーマンスを実現します。
第 2 に、迅速な収束を達成しながら非常に最小限のパラメータのトレーニングを必要とするため、高いトレーニング効率を示します。
デルタ チューニングを採用することで、モデルは 500 万個のパラメーター (合計パラメーター数のわずか 0.07% に相当) のみをトレーニングして、SOTA レベルに近いパフォーマンスを達成します。
私たちのコードは https://github.com/wang-zhanyu/R2GenGPT で入手できます。

要約(オリジナル)

Large Language Models (LLMs) have consistently showcased remarkable generalization capabilities when applied to various language tasks. Nonetheless, harnessing the full potential of LLMs for Radiology Report Generation (R2Gen) still presents a challenge, stemming from the inherent disparity in modality between LLMs and the R2Gen task. To bridge this gap effectively, we propose R2GenGPT, which is a novel solution that aligns visual features with the word embedding space of LLMs using an efficient visual alignment module. This innovative approach empowers the previously static LLM to seamlessly integrate and process image information, marking a step forward in optimizing R2Gen performance. R2GenGPT offers the following benefits. First, it attains state-of-the-art (SOTA) performance by training only the lightweight visual alignment module while freezing all the parameters of LLM. Second, it exhibits high training efficiency, as it requires the training of an exceptionally minimal number of parameters while achieving rapid convergence. By employing delta tuning, our model only trains 5M parameters (which constitute just 0.07\% of the total parameter count) to achieve performance close to the SOTA levels. Our code is available at https://github.com/wang-zhanyu/R2GenGPT.

arxiv情報

著者 Zhanyu Wang,Lingqiao Liu,Lei Wang,Luping Zhou
発行日 2023-09-18 14:35:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク