Griffon: Spelling out All Object Locations at Any Granularity with Large Language Models

要約

自由形式のテキストに基づいてあらゆる粒度ですべてのオブジェクトを検出するという人間の生来の能力を再現することは、視覚言語モデルにとって依然として困難な課題です。
現在の Large Vision Language Model (LVLM) は主に、単一の既存のオブジェクトを基盤とするように制約されており、参照式理解タスクからのデータのみに依存しています。
この制限によりモデル設計に妥協が生じ、ビジュアルエキスパートモデルの導入やカスタマイズされた頭部構造の統合が必要になります。
これらの制約を超えて、私たちの研究は LVLM の未開発の可能性を掘り下げ、基本的な物体認識に対するその固有の機能を明らかにし、関心のある物体を正確に識別して位置を特定できるようにします。
この洞察に基づいて、きめ細かい物体認識と正確な位置認識を統合する際に LVLM の機能を最大限に発揮するように設計された、新しい言語プロンプトのローカリゼーション データセットを紹介します。
さらに重要なのは、特別なトークン、エキスパート モデル、または追加の検出モジュールの導入を必要としない、純粋な LVLM ベースのベースラインである $\textbf{Griffon}$ を提示していることです。
さまざまなローカリゼーション関連のシナリオにわたってデータ形式を統一することで、一般的な LVLM との一貫した構造を維持し、適切に設計されたパイプラインを通じてエンドツーエンドでトレーニングされます。
包括的な実験により、$\textbf{Griffon}$ がきめ細かい RefCOCO シリーズで最先端のパフォーマンスを達成するだけでなく、検出ベンチマーク MSCOCO のエキスパート モデル Faster RCNN の機能に近づくことが実証されました。

要約(オリジナル)

Replicating the innate human ability to detect all objects based on free-form texts at any granularity remains a formidable challenge for Vision-Language models. Current Large Vision Language Models (LVLMs) are predominantly constrained to grounding a single, pre-existing object, relying solely on data from Referring Expression Comprehension tasks. The limitation leads to a compromise in model design, necessitating the introduction of visual expert models or the integration of customized head structures. Beyond these constraints, our research delves into the untapped potential of LVLMs and uncover their inherent capability for basic object perception, allowing them to accurately identify and locate objects of interest. Building on this insight, we introduce a novel language-prompted localization dataset designed to fully unleash the capabilities of LVLMs in integrating fine-grained object perception with precise location awareness. More importantly, we present $\textbf{Griffon}$, a purely LVLM-based baseline, which does not require the introduction of any special tokens, expert models, or additional detection modules. It simply maintains a consistent structure with popular LVLMs by unifying data formats across various localization-related scenarios and is trained end-to-end through a well-designed pipeline. Comprehensive experiments demonstrate that $\textbf{Griffon}$ not only achieves state-of-the-art performance on the fine-grained RefCOCO series but also approaches the capabilities of the expert model Faster RCNN on the detection benchmark MSCOCO.

arxiv情報

著者 Yufei Zhan,Yousong Zhu,Zhiyang Chen,Fan Yang,Ming Tang,Jinqiao Wang
発行日 2023-11-24 15:35:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク