Osprey: Pixel Understanding with Visual Instruction Tuning

要約

マルチモーダル大規模言語モデル (MLLM) は最近、視覚的な命令のチューニングを通じて優れた汎用ビジョン言語機能を実現しました。
ただし、現在の MLLM は主に画像レベルまたはボックス レベルの理解に焦点を当てており、ピクセル レベルでのきめ細かい視覚と言語の調整を達成するには至っていません。
さらに、マスクベースの命令データが不足しているため、その進歩は制限されています。
この論文では、ピクセルごとの視覚的理解を達成することを目的として、言語命令に粒度の細かいマスク領域を組み込むことによって MLLM を拡張する、マスク テキスト命令チューニング アプローチである Osprey を提案します。
この目標を達成するために、まず 724,000 個のサンプルを含むマスクベースの領域テキスト データセットを細心の注意を払って厳選し、次にピクセル レベルの表現を LLM に注入することで視覚言語モデルを設計します。
特に、Osprey はビジョン エンコーダとして畳み込み CLIP バックボーンを採用し、マスク対応ビジュアル エクストラクタを採用して高解像度入力から正確なビジュアル マスク特徴を抽出します。
実験結果は、さまざまな領域理解タスクにおける Osprey の優位性を実証し、ピクセルレベルの命令調整の新しい機能を示しています。
特に、Osprey はセグメント エニシング モデル (SAM) とシームレスに統合して、複数の粒度のセマンティクスを取得できます。
ソース コード、データセット、デモは https://github.com/CircleRadon/Osprey にあります。

要約(オリジナル)

Multimodal large language models (MLLMs) have recently achieved impressive general-purpose vision-language capabilities through visual instruction tuning. However, current MLLMs primarily focus on image-level or box-level understanding, falling short of achieving fine-grained vision-language alignment at the pixel level. Besides, the lack of mask-based instruction data limits their advancements. In this paper, we propose Osprey, a mask-text instruction tuning approach, to extend MLLMs by incorporating fine-grained mask regions into language instruction, aiming at achieving pixel-wise visual understanding. To achieve this goal, we first meticulously curate a mask-based region-text dataset with 724K samples, and then design a vision-language model by injecting pixel-level representation into LLM. Especially, Osprey adopts a convolutional CLIP backbone as the vision encoder and employs a mask-aware visual extractor to extract precise visual mask features from high resolution input. Experimental results demonstrate Osprey’s superiority in various region understanding tasks, showcasing its new capability for pixel-level instruction tuning. In particular, Osprey can be integrated with Segment Anything Model (SAM) seamlessly to obtain multi-granularity semantics. The source code, dataset and demo can be found at https://github.com/CircleRadon/Osprey.

arxiv情報

著者 Yuqian Yuan,Wentong Li,Jian Liu,Dongqi Tang,Xinjie Luo,Chi Qin,Lei Zhang,Jianke Zhu
発行日 2023-12-15 18:58:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク