LLaVA-Grounding: Grounded Visual Chat with Large Multimodal Models

要約

最近の大規模マルチモーダル モデル (LMM) の大幅な進歩により、ビジュアル チャットにおけるグラウンディング機能の重要性がますます認識されています。
LMM がグラウンディングをサポートできるようにする最近の取り組みにもかかわらず、通常、LMM のグラウンディングとチャットの機能は分離されており、グラウンディングを要求されるとチャットのパフォーマンスが大幅に低下します。
問題は、グラウンデッド ビジュアル チャット (GVC) 用のデータセットが不足していることです。
既存の接地データセットには短いキャプションのみが含まれています。
この問題に対処するために、グラウンディング機能とチャット機能の組み合わせを可能にする GVC データを作成しました。
GVC 機能をより適切に評価するために、Grounding-Bench と呼ばれるベンチマークを導入しました。
さらに、セグメンテーションモデルと言語モデルを連携させることで、GVCや各種ビジュアルプロンプトをサポートできるモデル設計を提案しました。
実験結果は、私たちのモデルが Grounding-Bench で他の LMM よりも優れていることを示しています。
さらに、当社のモデルは、RefCOCO/+/g や Flickr30K Entities などの古典的な接地ベンチマークで競争力のあるパフォーマンスを実現します。
私たちのコードは https://github.com/UX-Decoder/LLaVA-Grounding でリリースされます。

要約(オリジナル)

With the recent significant advancements in large multi-modal models (LMMs), the importance of their grounding capability in visual chat is increasingly recognized. Despite recent efforts to enable LMMs to support grounding, their capabilities for grounding and chat are usually separate, and their chat performance drops dramatically when asked to ground. The problem is the lack of a dataset for grounded visual chat (GVC). Existing grounding datasets only contain short captions. To address this issue, we have created GVC data that allows for the combination of grounding and chat capabilities. To better evaluate the GVC capabilities, we have introduced a benchmark called Grounding-Bench. Additionally, we have proposed a model design that can support GVC and various types of visual prompts by connecting segmentation models with language models. Experimental results demonstrate that our model outperforms other LMMs on Grounding-Bench. Furthermore, our model achieves competitive performance on classic grounding benchmarks like RefCOCO/+/g and Flickr30K Entities. Our code will be released at https://github.com/UX-Decoder/LLaVA-Grounding .

arxiv情報

著者 Hao Zhang,Hongyang Li,Feng Li,Tianhe Ren,Xueyan Zou,Shilong Liu,Shijia Huang,Jianfeng Gao,Lei Zhang,Chunyuan Li,Jianwei Yang
発行日 2023-12-05 18:29:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク