Visual Instruction Tuning

要約

タイトル:Visual Instruction Tuning(視覚的指示調整)

要約:
– 機械生成の指示従順データを使用した指示調整によって、言語モデルの向上が実現されているが、多様な分野ではあまり研究されていない。
– 本論文では、言語のみを使ったGPT-4を使用して、多様な言語と画像の指示従順データを生成する取り組みを紹介する。
– このデータを使用して指示調整を行い、Large Language and Vision Assistant(LLaVA)を導入する。
– LLaVAは、視覚エンコーダーと言語モデルを接続して、一般的な視覚と言語理解を提供する大型多様なモデルである。
– 初期の実験により、LLaVAは印象的な多様なチャット能力を発揮し、未知の画像/指示に対する多様なGPT-4の振る舞いを示し、合成的な多様な指示従順データセットにおいてGPT-4に対して85.1%の相対スコアを得た。
– Science QAでファインチューニングすると、LLaVAとGPT-4のシナジーにより、新しい最高精度92.53%が達成された。
– GPT-4生成の視覚的指示調整データ、モデル、コードベースを公開した。

要約(オリジナル)

Instruction tuning large language models (LLMs) using machine-generated instruction-following data has improved zero-shot capabilities on new tasks, but the idea is less explored in the multimodal field. In this paper, we present the first attempt to use language-only GPT-4 to generate multimodal language-image instruction-following data. By instruction tuning on such generated data, we introduce LLaVA: Large Language and Vision Assistant, an end-to-end trained large multimodal model that connects a vision encoder and LLM for general-purpose visual and language understanding.Our early experiments show that LLaVA demonstrates impressive multimodel chat abilities, sometimes exhibiting the behaviors of multimodal GPT-4 on unseen images/instructions, and yields a 85.1% relative score compared with GPT-4 on a synthetic multimodal instruction-following dataset. When fine-tuned on Science QA, the synergy of LLaVA and GPT-4 achieves a new state-of-the-art accuracy of 92.53%. We make GPT-4 generated visual instruction tuning data, our model and code base publicly available.

arxiv情報

著者 Haotian Liu,Chunyuan Li,Qingyang Wu,Yong Jae Lee
発行日 2023-04-17 17:59:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG パーマリンク