GROUNDHOG: Grounding Large Language Models to Holistic Segmentation

要約

ほとんどのマルチモーダル大規模言語モデル (MLLM) は、因果関係のある言語モデリングを通じて言語からオブジェクトへのグラウンディングを学習します。このモデルでは、グラウンディングされたオブジェクトが位置トークンのシーケンスとして境界ボックスによってキャプチャされます。
このパラダイムには、きめ細かい視覚的な理解と診断に重要なピクセルレベルの表現が欠けています。
この研究では、大規模言語モデルを総合的なセグメンテーションに基づいて開発した MLLM である GROUNDHOG を紹介します。
GROUNDHOG にはマスクされた特徴抽出機能が組み込まれており、抽出された特徴を MLLM バックボーンのビジュアル エンティティ トークンに変換します。その後、エンティティ マスクを取得してマージすることで、グラウンディング可能なフレーズを統合グラウンディング マスクに接続します。
GROUNDHOG をトレーニングするために、豊富なアノテーションを備えたセグメンテーションに基づいたデータセットのコレクションを収集することにより、マルチモーダル マルチグレイン グラウンディングを備えたグラウンディングされた視覚的命令調整データセットである M3G2 を慎重に厳選しました。
私たちの実験結果は、GROUNDHOG がタスク固有の微調整なしでさまざまな言語グラウンディング タスクで優れたパフォーマンスを達成し、物体の幻覚を大幅に軽減することを示しています。
また、GROUNDHOG は、複雑な形式の視覚入力に対するより良い基礎を示し、失敗した場合にわかりやすい診断を提供します。

要約(オリジナル)

Most multimodal large language models (MLLMs) learn language-to-object grounding through causal language modeling where grounded objects are captured by bounding boxes as sequences of location tokens. This paradigm lacks pixel-level representations that are important for fine-grained visual understanding and diagnosis. In this work, we introduce GROUNDHOG, an MLLM developed by grounding Large Language Models to holistic segmentation. GROUNDHOG incorporates a masked feature extractor and converts extracted features into visual entity tokens for the MLLM backbone, which then connects groundable phrases to unified grounding masks by retrieving and merging the entity masks. To train GROUNDHOG, we carefully curated M3G2, a grounded visual instruction tuning dataset with Multi-Modal Multi-Grained Grounding, by harvesting a collection of segmentation-grounded datasets with rich annotations. Our experimental results show that GROUNDHOG achieves superior performance on various language grounding tasks without task-specific fine-tuning, and significantly reduces object hallucination. GROUNDHOG also demonstrates better grounding towards complex forms of visual input and provides easy-to-understand diagnosis in failure cases.

arxiv情報

著者 Yichi Zhang,Ziqiao Ma,Xiaofeng Gao,Suhaila Shakiah,Qiaozi Gao,Joyce Chai
発行日 2024-04-16 17:59:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV パーマリンク