要約
会話生成 AI は、生物医学従事者に力を与えるという顕著な可能性を示していますが、現在の調査は単峰性のテキストに焦点を当てています。
マルチモーダル会話型 AI は、パブリック Web からの何十億もの画像とテキストのペアを活用することで急速な進歩を遂げていますが、そのような一般領域の視覚言語モデルは、生物医学画像を理解して会話するという点ではまだ洗練されていません。
この論文では、生物医学画像に関する自由回答の研究質問に答えることができる視覚言語会話アシスタントをトレーニングするための費用効率の高いアプローチを提案します。
重要なアイデアは、PubMed Central から抽出された大規模で広範囲をカバーする生物医学図キャプション データセットを活用し、GPT-4 を使用してキャプションからオープンエンドの指示に従うデータを自己指示し、大規模なデータセットを微調整することです。
新しいカリキュラム学習方法を使用した一般領域の視覚言語モデル。
具体的には、このモデルはまず、図とキャプションのペアをそのまま使用して生物医学の語彙を揃えることを学習し、次に GPT-4 で生成された命令に従うデータを使用してオープンエンドの会話セマンティクスを習得することを学習し、一般人が生物医学の知識を徐々に獲得する方法を広範囲に模倣します。
これにより、生物医学のための大型言語および視覚アシスタント (LLaVA-Med) を 15 時間以内 (8 台の A100 を使用) でトレーニングできるようになります。
LLaVA-Med は、優れたマルチモーダルな会話能力を示し、生物医学画像に関する問い合わせを支援する自由回答型の指示に従うことができます。
3 つの標準的な生物医学視覚的質問応答データセットにおいて、LLaVA-Med は、特定の指標に関して、これまでの監視された最先端のデータセットを上回っています。
生物医学の複合研究を促進するために、指示に従っているデータと LLaVA-Med モデルを公開します。
要約(オリジナル)
Conversational generative AI has demonstrated remarkable promise for empowering biomedical practitioners, but current investigations focus on unimodal text. Multimodal conversational AI has seen rapid progress by leveraging billions of image-text pairs from the public web, but such general-domain vision-language models still lack sophistication in understanding and conversing about biomedical images. In this paper, we propose a cost-efficient approach for training a vision-language conversational assistant that can answer open-ended research questions of biomedical images. The key idea is to leverage a large-scale, broad-coverage biomedical figure-caption dataset extracted from PubMed Central, use GPT-4 to self-instruct open-ended instruction-following data from the captions, and then fine-tune a large general-domain vision-language model using a novel curriculum learning method. Specifically, the model first learns to align biomedical vocabulary using the figure-caption pairs as is, then learns to master open-ended conversational semantics using GPT-4 generated instruction-following data, broadly mimicking how a layperson gradually acquires biomedical knowledge. This enables us to train a Large Language and Vision Assistant for BioMedicine (LLaVA-Med) in less than 15 hours (with eight A100s). LLaVA-Med exhibits excellent multimodal conversational capability and can follow open-ended instruction to assist with inquiries about a biomedical image. On three standard biomedical visual question answering datasets, LLaVA-Med outperforms previous supervised state-of-the-art on certain metrics. To facilitate biomedical multimodal research, we will release our instruction-following data and the LLaVA-Med model.
arxiv情報
著者 | Chunyuan Li,Cliff Wong,Sheng Zhang,Naoto Usuyama,Haotian Liu,Jianwei Yang,Tristan Naumann,Hoifung Poon,Jianfeng Gao |
発行日 | 2023-06-01 16:50:07+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google