Inst-IT: Boosting Multimodal Instance Understanding via Explicit Visual Prompt Instruction Tuning

要約

大規模マルチモーダルモデル(LMM)は、インストラクションチューニングの進歩により大きなブレークスルーを果たした。しかし、既存のモデルは画像や動画を全体的なレベルで理解することはできても、より微妙な理解とアライメントを必要とするインスタンスレベルの理解にはまだ苦戦している。インスタンスレベルの理解は、我々が最も興味を持つ特定の要素に焦点を当てるため、非常に重要である。エキサイティングなことに、最新のLMMは、明示的な視覚的手がかりが与えられたときに、強力なインスタンス理解能力を示すことが、既存の研究で分かっている。このことに動機づけられ、我々は、インスタンス誘導のための明示的な視覚的プロンプトを通して、画像やビデオからインスタンスレベルの情報を抽出するために、GPT-4oによって支援される自動アノテーションパイプラインを紹介する。このパイプラインを基に、我々は、明示的な視覚的プロンプトによるインストラクションチューニングを通じて、インスタンス理解におけるLMMを強化するソリューションであるInst-IT を提案した。Inst-ITは、マルチモーダルなインスタンスレベルの理解度を診断するベンチマーク、大規模なインストラクションチューニングデータセット、既存のLMMの空間的・時間的インスタンス理解能力を効果的に強化するための継続的なインストラクションチューニングトレーニングパラダイムから構成される。実験の結果、Inst-ITのブーストにより、我々のモデルはInst-IT Benchにおいて卓越した性能を達成するだけでなく、様々な一般的な画像・動画像理解ベンチマークにおいても有意な改善を示した。このことは、我々のデータセットがインスタンスレベルの理解力を高めるだけでなく、一般的な画像・動画像理解の総合的な能力を強化することを強調している。

要約(オリジナル)

Large Multimodal Models (LMMs) have made significant breakthroughs with the advancement of instruction tuning. However, while existing models can understand images and videos at a holistic level, they still struggle with instance-level understanding that requires a more nuanced comprehension and alignment. Instance-level understanding is crucial, as it focuses on the specific elements that we are most interested in. Excitingly, existing works find that the state-of-the-art LMMs exhibit strong instance understanding capabilities when provided with explicit visual cues. Motivated by this, we introduce an automated annotation pipeline assisted by GPT-4o to extract instance-level information from images and videos through explicit visual prompting for instance guidance. Building upon this pipeline, we proposed Inst-IT, a solution to enhance LMMs in Instance understanding via explicit visual prompt Instruction Tuning. Inst-IT consists of a benchmark to diagnose multimodal instance-level understanding, a large-scale instruction-tuning dataset, and a continuous instruction-tuning training paradigm to effectively enhance spatial-temporal instance understanding capabilities of existing LMMs. Experimental results show that, with the boost of Inst-IT, our models not only achieve outstanding performance on Inst-IT Bench but also demonstrate significant improvements across various generic image and video understanding benchmarks. This highlights that our dataset not only boosts instance-level understanding but also strengthens the overall capabilities of generic image and video comprehension.

arxiv情報

著者 Wujian Peng,Lingchen Meng,Yitong Chen,Yiweng Xie,Yang Liu,Tao Gui,Hang Xu,Xipeng Qiu,Zuxuan Wu,Yu-Gang Jiang
発行日 2024-12-04 18:58:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク