X-InstructBLIP: A Framework for aligning X-Modal instruction-aware representations to LLMs and Emergent Cross-modal Reasoning

要約

最近の研究では、画像から言語への投影を学習し、大規模言語モデル (LLM) の優れた推論能力を活用することで、視覚的推論タスクで大幅な進歩を達成しました。
この論文では、複数のモダリティ (画像、3D、オーディオ、ビデオ) を凍結 LLM に統合する効率的かつ効果的なフレームワークを紹介し、クロスモーダル推論 (2 つ以上のモダリティ入力) の創発的な能力を実証します。
私たちのアプローチは、Q フォーマーと線形投影 (LP) という 2 つの異なる投影メカニズムを調査します。
16 のベンチマークにおける 4 つのモダリティすべてにわたる広範な実験を通じて、両方の方法を調査し、統合および個別のクロスモーダル推論における適応性を評価します。
Q-Former 投影は、単一モダリティのシナリオで優れたパフォーマンスを示し、2 つ以上のモダリティを含む統合推論と識別推論での適応性を示します。
ただし、タスク モダリティ データが制限されている状況では、線形投影より一般化機能が低くなります。
このフレームワークを可能にするために、さまざまなモダリティですぐに利用できるキャプション データから高品質の命令チューニング データセットを自動的に生成するスケーラブルなパイプラインを考案し、オーディオ用に 24,000 個の QA データ、3D 用に 250,000 個の QA データを提供します。
クロスモーダル推論のさらなる研究を促進するために、9K オーディオビデオ QA サンプルと 28K 画像 3D QA サンプルで構成される DisCRn (Discriminative Cross-modal Reasoning) ベンチマークを導入します。このベンチマークでは、モデルが異種の入力モダリティ全体で識別的に推論する必要があります。

要約(オリジナル)

Recent research has achieved significant advancements in visual reasoning tasks through learning image-to-language projections and leveraging the impressive reasoning abilities of Large Language Models (LLMs). This paper introduces an efficient and effective framework that integrates multiple modalities (images, 3D, audio and video) to a frozen LLM and demonstrates an emergent ability for cross-modal reasoning (2+ modality inputs). Our approach explores two distinct projection mechanisms: Q-Formers and Linear Projections (LPs). Through extensive experimentation across all four modalities on 16 benchmarks, we explore both methods and assess their adaptability in integrated and separate cross-modal reasoning. The Q-Former projection demonstrates superior performance in single modality scenarios and adaptability in joint versus discriminative reasoning involving two or more modalities. However, it exhibits lower generalization capabilities than linear projection in contexts where task-modality data are limited. To enable this framework, we devise a scalable pipeline that automatically generates high-quality, instruction-tuning datasets from readily available captioning data across different modalities, and contribute 24K QA data for audio and 250K QA data for 3D. To facilitate further research in cross-modal reasoning, we introduce the DisCRn (Discriminative Cross-modal Reasoning) benchmark comprising 9K audio-video QA samples and 28K image-3D QA samples that require the model to reason discriminatively across disparate input modalities.

arxiv情報

著者 Artemis Panagopoulou,Le Xue,Ning Yu,Junnan Li,Dongxu Li,Shafiq Joty,Ran Xu,Silvio Savarese,Caiming Xiong,Juan Carlos Niebles
発行日 2024-09-09 16:00:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク