JRadiEvo: A Japanese Radiology Report Generation Model Enhanced by Evolutionary Optimization of Model Merging

要約

大規模言語モデル (LLM) の急速な進歩に伴い、基礎モデル (FM) も大幅に進歩しました。
医師が大量の患者データを分析するには多大な時間と労力を必要とするため、医療はこれらの FM にとって最も重要な応用分野の 1 つです。
最近の取り組みは、命令チューニングなどの技術を通じてマルチモーダル FM を医療領域に適応させることに焦点を当てており、医療基盤モデル (MFM) の開発につながっています。
ただし、これらのアプローチでは通常、モデルを医療分野に効果的に適応させるために大量のトレーニング データが必要です。
さらに、既存のモデルのほとんどは英語のデータセットでトレーニングされているため、医療従事者や患者が必ずしも英語に堪能であるとは限らない非英語圏地域では実用性が制限されています。
翻訳の必要性により、追加のコストと非効率が発生します。
これらの課題に対処するために、モデル結合の \textbf{Evo}lutionary 最適化 (JRadiEvo) によって強化された \textbf{J}apanese \textbf{Radi}ology レポート生成モデルを提案します。
これは、モデル結合の進化的最適化を通じて、非医療用視覚言語基盤モデルを医療領域に拡張する初めての試みです。
公開データからわずか 50 個の翻訳サンプルを使用して、X 線画像から正確な日本語レポートを生成するモデルの作成に成功しました。
このモデルは、限られたデータを非常に効率的に使用して開発され、はるかに大規模なデータセットでトレーニングされた最近の研究の主要なモデルを上回りました。
さらに、パラメーターが 80 億しかないこの比較的コンパクトな基盤モデルは、病院内でローカルに展開できるため、厳格なプライバシーとセキュリティ要件により API やその他の外部サービスを使用できない環境にとって実用的なソリューションになります。

要約(オリジナル)

With the rapid advancement of large language models (LLMs), foundational models (FMs) have seen significant advancements. Healthcare is one of the most crucial application areas for these FMs, given the significant time and effort required for physicians to analyze large volumes of patient data. Recent efforts have focused on adapting multimodal FMs to the medical domain through techniques like instruction-tuning, leading to the development of medical foundation models (MFMs). However, these approaches typically require large amounts of training data to effectively adapt models to the medical field. Moreover, most existing models are trained on English datasets, limiting their practicality in non-English-speaking regions where healthcare professionals and patients are not always fluent in English. The need for translation introduces additional costs and inefficiencies. To address these challenges, we propose a \textbf{J}apanese \textbf{Radi}ology report generation model enhanced by \textbf{Evo}lutionary optimization of model merging (JRadiEvo). This is the first attempt to extend a non-medical vision-language foundation model to the medical domain through evolutionary optimization of model merging. We successfully created a model that generates accurate Japanese reports from X-ray images using only 50 translated samples from publicly available data. This model, developed with highly efficient use of limited data, outperformed leading models from recent research trained on much larger datasets. Additionally, with only 8 billion parameters, this relatively compact foundation model can be deployed locally within hospitals, making it a practical solution for environments where APIs and other external services cannot be used due to strict privacy and security requirements.

arxiv情報

著者 Kaito Baba,Ryota Yagi,Junichiro Takahashi,Risa Kishikawa,Satoshi Kodera
発行日 2024-11-15 04:16:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.NE パーマリンク