要約
画像内のあらゆる形状や粒度の空間参照を理解し、オープンな語彙の説明を正確に根拠付けることができる、新しいマルチモーダル大規模言語モデル (MLLM) である Ferret を紹介します。
LLM パラダイムの参照と根拠を統合するために、Ferret は、離散座標と連続特徴を統合して画像内の領域を表現する、斬新で強力なハイブリッド領域表現を採用しています。
多様な領域の連続的な特徴を抽出するために、さまざまな形状にわたるさまざまなスパース性の処理に熟達した、空間認識ビジュアル サンプラーを提案します。
その結果、Ferret は、点、境界ボックス、自由形状などの多様な領域入力を受け入れることができます。
Ferret の望ましい機能を強化するために、モデルの堅牢性を促進するための 95,000 個のハード ネガティブ データを含む、豊富な階層空間知識を含む 110 万個のサンプルを含む包括的な参照および接地命令調整データセットである GRIT を厳選しました。
結果として得られるモデルは、従来の参照タスクやグラウンディング タスクで優れたパフォーマンスを達成するだけでなく、地域ベースのローカリゼーションが要求されるマルチモーダル チャットでも既存の MLLM を大幅に上回ります。
私たちの評価では、画像の詳細を説明する能力が大幅に向上し、物体の幻覚が顕著に軽減されたことも明らかになりました。
コードとデータは https://github.com/apple/ml-ferret で入手できます。
要約(オリジナル)
We introduce Ferret, a new Multimodal Large Language Model (MLLM) capable of understanding spatial referring of any shape or granularity within an image and accurately grounding open-vocabulary descriptions. To unify referring and grounding in the LLM paradigm, Ferret employs a novel and powerful hybrid region representation that integrates discrete coordinates and continuous features jointly to represent a region in the image. To extract the continuous features of versatile regions, we propose a spatial-aware visual sampler, adept at handling varying sparsity across different shapes. Consequently, Ferret can accept diverse region inputs, such as points, bounding boxes, and free-form shapes. To bolster the desired capability of Ferret, we curate GRIT, a comprehensive refer-and-ground instruction tuning dataset including 1.1M samples that contain rich hierarchical spatial knowledge, with 95K hard negative data to promote model robustness. The resulting model not only achieves superior performance in classical referring and grounding tasks, but also greatly outperforms existing MLLMs in region-based and localization-demanded multimodal chatting. Our evaluations also reveal a significantly improved capability of describing image details and a remarkable alleviation in object hallucination. Code and data will be available at https://github.com/apple/ml-ferret
arxiv情報
著者 | Haoxuan You,Haotian Zhang,Zhe Gan,Xianzhi Du,Bowen Zhang,Zirui Wang,Liangliang Cao,Shih-Fu Chang,Yinfei Yang |
発行日 | 2023-10-11 17:55:15+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google