要約
LLM の目覚ましい発展を受けて、マルチモーダル推論とビジュアル IO を可能にするために、LLM におけるビジョンと言語の調整が積極的に研究されています。
この研究方向は、医用画像の分析と生成が視覚的特徴と事前知識の組み合わせに基づく推論で構成されるため、特に医用画像に関連しています。
最近の研究の多くは、画像処理ネットワークと LLM の間の情報ブリッジとして機能するアダプター ネットワークのトレーニングに焦点を当てています。
しかしおそらく、視覚情報に関しても LLM の推論の可能性を最大限に発揮するには、視覚機能と言語機能がより自由に相互作用できるようにする必要があります。
胸部 X 線 (CXR) などの医療画像を理解して生成するには、視覚と言語に基づいた正確な推論だけでなく、2 つのモダリティ間のより緊密なマッピングも必要となるため、これは医療分野で特に重要です。
したがって、双方向画像およびテキスト生成のためのトランスフォーマーと VQ-GAN の組み合わせに関する以前の研究からインスピレーションを得て、このアプローチを構築し、テキストのみで事前トレーニングされた LLM の命令チューニング方法を開発して、画像およびテキストの視覚言語機能を獲得します。
医療画像。
具体的には、事前トレーニング済み LLM の既存の質問応答機能と指示追従機能を活用して、画像入力に関する質問に答えるように指示することで視覚入力を理解できるように教え、対称的に、クエリを調整することで特定のクエリに適切なテキストと画像の両方の応答を出力します。
画像ベースのテキスト生成とテキストベースの画像生成を含む多様なタスクを備えた LLM。
このアプローチでトレーニングされたモデル LLM-CXR は、狭い範囲のタスクを実行する以前に開発されたモデルと比較してサイズが小さいにもかかわらず、CXR の理解タスクと生成タスクの両方で画像とテキストの位置合わせが向上していることを示します。
コードは https://github.com/hyn2028/llm-cxr にあります。
要約(オリジナル)
Following the impressive development of LLMs, vision-language alignment in LLMs is actively being researched to enable multimodal reasoning and visual IO. This direction of research is particularly relevant to medical imaging because medical image analysis and generation consist of reasoning based on a combination of visual features and prior knowledge. Many recent works have focused on training adapter networks that serve as an information bridge between image processing networks and LLMs; but presumably, in order to achieve maximum reasoning potential of LLMs on visual information as well, visual and language features should be allowed to interact more freely. This is especially important in the medical domain because understanding and generating medical images such as chest X-rays (CXR) require not only accurate visual and language-based reasoning but also a more intimate mapping between the two modalities. Thus, taking inspiration from previous work on the transformer and VQ-GAN combination for bidirectional image and text generation, we build upon this approach and develop a method for instruction-tuning an LLM pre-trained only on text to gain vision-language capabilities for medical images. Specifically, we leverage a pretrained LLM’s existing question-answering and instruction-following abilities to teach it to understand visual inputs by instructing it to answer questions about image inputs and, symmetrically, output both text and image responses appropriate to a given query by tuning the LLM with diverse tasks that encompass image-based text-generation and text-based image-generation. We show that our model, LLM-CXR, trained in this approach shows better image-text alignment in both CXR understanding and generation tasks while being smaller in size compared to previously developed models that perform a narrower range of tasks. The code is at https://github.com/hyn2028/llm-cxr.
arxiv情報
著者 | Suhyeon Lee,Won Jun Kim,Jinho Chang,Jong Chul Ye |
発行日 | 2023-10-17 12:16:03+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google