LLaVAR: Enhanced Visual Instruction Tuning for Text-Rich Image Understanding

要約

命令チューニングにより、人間と対話するための大規模言語モデル (LLM) の優れた機能が解放されます。
さらに、最近の命令追跡データセットには視覚入力として画像が含まれており、画像ベースの命令に対する応答を収集します。
ただし、視覚的な命令に調整されたモデルは、画像内のテキストの詳細をうまく理解できません。
この取り組みは、テキストが豊富な画像 (映画ポスター、本の表紙など) を使用して現在の視覚的命令チューニング パイプラインを強化します。
具体的には、まず公開されている OCR ツールを使用して、LAION データセットから 422K のテキストが豊富な画像の結果を収集します。
さらに、認識されたテキストと画像キャプションを備えたテキストのみの GPT-4 に 16,000 の会話を生成させます。各会話には、テキストが豊富な画像に対する質問と回答のペアが含まれています。
収集したデータを以前のマルチモーダル命令追従データと組み合わせることで、当社のモデル LLaVAR は、ScienceQA で 91.42% の精度を達成しながら、テキストベースの VQA データセットに対する LLaVA モデルの機能を大幅に向上させます (精度が最大 20% 向上)。
GPT-4 ベースの命令追従評価も、自然画像とテキストの多い画像の両方に対するモデルの改善を示しています。
LLaVAR は、定性分析を通じて、テキストと画像を組み合わせた最新の現実世界のオンライン コンテンツに基づいて、人間との有望なインタラクション (推論、執筆、精緻化など) スキルを示します。
コード/データ/モデルは https://llavar.github.io/ で公開されています。

要約(オリジナル)

Instruction tuning unlocks the superior capability of Large Language Models (LLM) to interact with humans. Furthermore, recent instruction-following datasets include images as visual inputs, collecting responses for image-based instructions. However, visual instruction-tuned models cannot comprehend textual details within images well. This work enhances the current visual instruction tuning pipeline with text-rich images (e.g., movie posters, book covers, etc.). Specifically, we first use publicly available OCR tools to collect results on 422K text-rich images from the LAION dataset. Moreover, we prompt text-only GPT-4 with recognized texts and image captions to generate 16K conversations, each containing question-answer pairs for text-rich images. By combining our collected data with previous multi-modal instruction-following data, our model, LLaVAR, substantially improves the LLaVA model’s capability on text-based VQA datasets (up to 20% accuracy improvement) while achieving an accuracy of 91.42% on ScienceQA. The GPT-4-based instruction-following evaluation also demonstrates the improvement of our model on both natural images and text-rich images. Through qualitative analysis, LLaVAR shows promising interaction (e.g., reasoning, writing, and elaboration) skills with humans based on the latest real-world online content that combines text and images. We make our code/data/models publicly available at https://llavar.github.io/.

arxiv情報

著者 Yanzhe Zhang,Ruiyi Zhang,Jiuxiang Gu,Yufan Zhou,Nedim Lipka,Diyi Yang,Tong Sun
発行日 2023-06-29 17:08:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク