Jack of All Tasks, Master of Many: Designing General-purpose Coarse-to-Fine Vision-Language Model

要約

大規模言語モデル (LLM) が視覚入力を処理できるため、命令チューニングによってさまざまなビジョン言語 (VL) タスクを統合する汎用ビジョン システムが誕生しました。
しかし、視覚領域における入出力形式は非常に多様であるため、既存の汎用モデルは、粗いレベルのタスクを伴うセグメンテーションとマルチ画像入力を単一のフレームワークにうまく統合できません。
この研究では、統合フレームワークを使用して単一および複数の入力画像に対する粗粒および細粒の VL タスクに対処する強力なビジュアル システムである VistaLLM を紹介します。
VistaLLM は、タスク記述を使用してグローバルな埋め込みをフィルタリングし、多数の画像から圧縮され洗練された特徴を抽出する命令ガイド付き画像トークナイザーを利用します。
さらに、VistaLLM は勾配を認識した適応サンプリング技術を採用してバイナリ セグメンテーション マスクをシーケンスとして表現し、以前に使用されていた均一サンプリングよりも大幅に改善されています。
VistaLLM の望ましい機能を強化するために、680 万サンプルを含む包括的な粗いから細かいまでの命令チューニング データセットである CoinIt を厳選しました。
また、複数の入力画像に対するモデルの推論とグラウンディング能力を強化する新しいタスク AttCoSeg (属性レベルの共同セグメンテーション) を導入することで、マルチ画像グラウンディング データセットの欠如にも対処します。
幅広い V および VL タスクに関する広範な実験により、すべての下流タスクにわたって強力なベースラインを超えて一貫した最先端のパフォーマンスを達成することにより、VistaLLM の有効性が実証されました。
私たちのプロジェクト ページは https://shramanpramanick.github.io/VistaLLM/ にあります。

要約(オリジナル)

The ability of large language models (LLMs) to process visual inputs has given rise to general-purpose vision systems, unifying various vision-language (VL) tasks by instruction tuning. However, due to the enormous diversity in input-output formats in the vision domain, existing general-purpose models fail to successfully integrate segmentation and multi-image inputs with coarse-level tasks into a single framework. In this work, we introduce VistaLLM, a powerful visual system that addresses coarse- and fine-grained VL tasks over single and multiple input images using a unified framework. VistaLLM utilizes an instruction-guided image tokenizer that filters global embeddings using task descriptions to extract compressed and refined features from numerous images. Moreover, VistaLLM employs a gradient-aware adaptive sampling technique to represent binary segmentation masks as sequences, significantly improving over previously used uniform sampling. To bolster the desired capability of VistaLLM, we curate CoinIt, a comprehensive coarse-to-fine instruction tuning dataset with 6.8M samples. We also address the lack of multi-image grounding datasets by introducing a novel task, AttCoSeg (Attribute-level Co-Segmentation), which boosts the model’s reasoning and grounding capability over multiple input images. Extensive experiments on a wide range of V- and VL tasks demonstrate the effectiveness of VistaLLM by achieving consistent state-of-the-art performance over strong baselines across all downstream tasks. Our project page can be found at https://shramanpramanick.github.io/VistaLLM/.

arxiv情報

著者 Shraman Pramanick,Guangxing Han,Rui Hou,Sayan Nag,Ser-Nam Lim,Nicolas Ballas,Qifan Wang,Rama Chellappa,Amjad Almahairi
発行日 2023-12-19 18:53:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク