要約
画像とテキストのペアに関する大規模言語モデル (LLM) の命令調整により、前例のない視覚言語マルチモーダル機能が実現されました。
しかし、彼らの視覚と言語の整合性は画像レベルでのみ構築されており、領域レベルの整合性が欠如しているため、彼らの進歩はきめの細かいマルチモーダルな理解に限定されます。
本稿では、関心領域に関する命令チューニングを提案します。
重要な設計は、境界ボックスを空間指示の形式として再定式化することです。
空間命令と言語埋め込みによって抽出された視覚特徴のインターリーブされたシーケンスは LLM に入力され、変換された領域テキスト データに対して命令調整形式でトレーニングされます。
GPT4RoI と呼ばれる当社の地域レベルのビジョン言語モデルは、画像レベルの理解を超えたまったく新しい会話型およびインタラクティブなエクスペリエンスをもたらします。
(1) 制御性: ユーザーは言語と空間指示の両方によってモデルと対話し、質問の詳細レベルを柔軟に調整できます。
(2) 容量: 私たちのモデルは、単一領域の空間指示だけでなく、複数領域もサポートします。
これにより、詳細な領域キャプションや複雑な領域推論など、より多くの領域レベルのマルチモーダルな機能が解放されます。
(3) 構成: 既製のオブジェクト検出器は、色、形状、素材、アクション、他のオブジェクトとの関係など、モデルから有益なオブジェクト属性をマイニングするための空間指示プロバイダーとして使用できます。コード、データ
デモは https://github.com/jshilong/GPT4RoI でご覧いただけます。
要約(オリジナル)
Instruction tuning large language model (LLM) on image-text pairs has achieved unprecedented vision-language multimodal abilities. However, their vision-language alignments are only built on image-level, the lack of region-level alignment limits their advancements to fine-grained multimodal understanding. In this paper, we propose instruction tuning on region-of-interest. The key design is to reformulate the bounding box as the format of spatial instruction. The interleaved sequences of visual features extracted by the spatial instruction and the language embedding are input to LLM, and trained on the transformed region-text data in instruction tuning format. Our region-level vision-language model, termed as GPT4RoI, brings brand new conversational and interactive experience beyond image-level understanding. (1) Controllability: Users can interact with our model by both language and spatial instructions to flexibly adjust the detail level of the question. (2) Capacities: Our model supports not only single-region spatial instruction but also multi-region. This unlocks more region-level multimodal capacities such as detailed region caption and complex region reasoning. (3) Composition: Any off-the-shelf object detector can be a spatial instruction provider so as to mine informative object attributes from our model, like color, shape, material, action, relation to other objects, etc. The code, data, and demo can be found at https://github.com/jshilong/GPT4RoI.
arxiv情報
著者 | Shilong Zhang,Peize Sun,Shoufa Chen,Min Xiao,Wenqi Shao,Wenwei Zhang,Kai Chen,Ping Luo |
発行日 | 2023-07-07 13:43:44+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google