LLaVA-VSD: Large Language-and-Vision Assistant for Visual Spatial Description

要約

Visual Spatial description (VSD) は、画像内のオブジェクト間の空間関係を説明するテキストを生成することを目的としています。
従来の視覚空間関係分類 (VSRC) 手法は通常、画像内の 2 つのオブジェクト間の空間関係を出力しますが、世界の知識が無視され、一般的な言語機能が欠けていることがよくあります。
この論文では、視覚空間関係の分類、記述、およびオープンエンド記述のために設計された、LLaVA-VSD という視覚空間記述のための大規模言語および視覚アシスタントを提案します。
具体的には、モデルはまず、3 つのタスクに対して指定された図とキャプションのペアを使用して、VSD 命令に従うデータセットを構築します。
次に、LoRA を使用して、130 億のパラメータを持ち、高解像度の画像をサポートする VSD 用の大規模言語および視覚アシスタントを微調整します。
最後に、大規模な言語モデル (Qwen-2) を使用して生成された文を洗練し、その多様性と精度を高めます。
LLaVA-VSD は、優れたマルチモーダル会話機能を実証し、自由形式の指示に従って、画像内のオブジェクトの関係に関する問い合わせを支援できます。

要約(オリジナル)

Visual Spatial Description (VSD) aims to generate texts that describe the spatial relationships between objects within images. Traditional visual spatial relationship classification (VSRC) methods typically output the spatial relationship between two objects in an image, often neglecting world knowledge and lacking general language capabilities. In this paper, we propose a Large Language-and-Vision Assistant for Visual Spatial Description, named LLaVA-VSD, which is designed for the classification, description, and open-ended description of visual spatial relationships. Specifically, the model first constructs a VSD instruction-following dataset using given figure-caption pairs for the three tasks. It then employs LoRA to fine-tune a Large Language and Vision Assistant for VSD, which has 13 billion parameters and supports high-resolution images. Finally, a large language model (Qwen-2) is used to refine the generated sentences, enhancing their diversity and accuracy. LLaVA-VSD demonstrates excellent multimodal conversational capabilities and can follow open-ended instructions to assist with inquiries about object relationships in images.

arxiv情報

著者 Yizhang Jin,Jian Li,Jiangning Zhang,Jianlong Hu,Zhenye Gan,Xin Tan,Yong Liu,Yabiao Wang,Chengjie Wang,Lizhuang Ma
発行日 2024-08-09 09:22:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク