要約
最近、大規模言語モデル (LLM) が視覚的命令チューニングを通じて画像を解釈できるようにするマルチモーダル大規模言語モデル (MLLM) が大きな成功を収めています。
しかし、既存の視覚的命令調整方法は、言語と画像モダリティを調整するために画像言語命令データのみを利用しており、よりきめ細かいクロスモーダル調整が欠けています。
この論文では、追加の領域レベルのビジョン エンコーダを統合することで MLLM の機能を拡張する、位置強化ビジュアル命令チューニング (PVIT) を提案します。
この統合により、MLLM の画像のより詳細な理解が促進されます。
さらに、ビジョン モジュールと LLM の間のきめ細かい調整を効率的に達成するために、画像領域言語命令データセットを構築するための複数のデータ生成戦略を設計します。
最後に、提案されたモデルの優位性を実証する定量的実験と定性的分析の両方を紹介します。
コードとデータは https://github.com/PVIT-official/PVIT で公開されます。
要約(オリジナル)
Recently, Multimodal Large Language Models (MLLMs) that enable Large Language Models (LLMs) to interpret images through visual instruction tuning have achieved significant success. However, existing visual instruction tuning methods only utilize image-language instruction data to align the language and image modalities, lacking a more fine-grained cross-modal alignment. In this paper, we propose Position-enhanced Visual Instruction Tuning (PVIT), which extends the functionality of MLLMs by integrating an additional region-level vision encoder. This integration promotes a more detailed comprehension of images for the MLLM. In addition, to efficiently achieve a fine-grained alignment between the vision modules and the LLM, we design multiple data generation strategies to construct an image-region-language instruction dataset. Finally, we present both quantitative experiments and qualitative analysis that demonstrate the superiority of the proposed model. Code and data will be released at https://github.com/PVIT-official/PVIT.
arxiv情報
著者 | Chi Chen,Ruoyu Qin,Fuwen Luo,Xiaoyue Mi,Peng Li,Maosong Sun,Yang Liu |
発行日 | 2023-09-14 15:00:06+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google