Ferret-v2: An Improved Baseline for Referring and Grounding with Large Language Models

要約

Ferret は、地域の理解を大規模言語モデル (LLM) にシームレスに統合して、参照およびグラウンディング機能を促進しますが、事前にトレーニングされた固定ビジュアル エンコーダーによって制約され、より広範なタスクで適切に実行できないという、一定の制限があります。
この作業では、3 つの主要な設計を備えた Ferret の大幅なアップグレードである Ferret-v2 を発表します。
(1) 任意の解像度の根拠と参照: より高い画像解像度を簡単に処理する柔軟なアプローチにより、画像をより詳細に処理および理解するモデルの能力が向上します。
(2) 多粒度のビジュアル エンコーディング: 追加の DINOv2 エンコーダーを統合することにより、モデルはグローバルで粒度の細かいビジュアル情報の基礎となる多様なコンテキストをより適切に学習します。
(3) 3 段階のトレーニング パラダイム: 画像キャプションの位置合わせに加えて、最終的な命令調整の前に高解像度の密な位置合わせのための追加の段階が提案されています。
実験の結果、Ferret-v2 は、高解像度のスケーリングときめ細かい視覚処理により、Ferret やその他の最先端の手法に比べて大幅な改善が見られることが示されています。

要約(オリジナル)

While Ferret seamlessly integrates regional understanding into the Large Language Model (LLM) to facilitate its referring and grounding capability, it poses certain limitations: constrained by the pre-trained fixed visual encoder and failed to perform well on broader tasks. In this work, we unveil Ferret-v2, a significant upgrade to Ferret, with three key designs. (1) Any resolution grounding and referring: A flexible approach that effortlessly handles higher image resolution, improving the model’s ability to process and understand images in greater detail. (2) Multi-granularity visual encoding: By integrating the additional DINOv2 encoder, the model learns better and diverse underlying contexts for global and fine-grained visual information. (3) A three-stage training paradigm: Besides image-caption alignment, an additional stage is proposed for high-resolution dense alignment before the final instruction tuning. Experiments show that Ferret-v2 provides substantial improvements over Ferret and other state-of-the-art methods, thanks to its high-resolution scaling and fine-grained visual processing.

arxiv情報

著者 Haotian Zhang,Haoxuan You,Philipp Dufter,Bowen Zhang,Chen Chen,Hong-You Chen,Tsu-Jui Fu,William Yang Wang,Shih-Fu Chang,Zhe Gan,Yinfei Yang
発行日 2024-04-11 17:56:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク