Fine-grained Audio-Visual Joint Representations for Multimodal Large Language Models

要約

オーディオビジュアルラージ言語モデル (LLM) は大きな注目を集めていますが、両方の入力ストリームのきめ細かい組み合わせはあまり研究されていません。これは困難ではありますが、LLM が一般的なビデオ入力を理解するために必要です。
この目的を達成するために、この論文では、マルチモーダル LLM のためのきめの細かいオーディオビジュアル共同表現 (FAVOR) 学習フレームワークを提案します。このフレームワークは、テキストベースの LLM を拡張して、音声入力ストリームと画像またはビデオ内の音声イベントと音声イベントを同時に認識します。
ビジュアル入力ストリーム内で、フレーム レベルで。
オーディオとビジュアルの特徴ストリームをジョイント表現に融合し、ジョイント空間をLLM入力埋め込み空間と位置合わせするために、オーディオビジュアルフレームの因果関係の捕捉を強化する因果的注意モジュールを備えた因果的Q-Former構造を提案します。
時を超えて。
視聴覚評価ベンチマーク (AVEB) も提案されています。これは、視聴覚の推論能力を反映する 6 つの代表的なシングルモーダル タスクと 5 つのクロスモーダル タスクで構成されます。
FAVOR は、AVEB のオーディオ、音声、および画像タスクで競争力のあるシングルモーダル パフォーマンスを達成しながら、きめの細かい情報や時間的因果推論が必要な場合のビデオ質問応答タスクで 20% 以上の精度向上を達成しました。
さらに、FAVOR は、他のマルチモーダル LLM では前例のない、タスクに関する驚くべきビデオ理解力と推論能力を実証しました。
FAVOR のインタラクティブなデモは https://github.com/BriansIDP/AudioVisualLLM.git で利用でき、トレーニング コードとモデル チェックポイントは間もなくリリースされます。

要約(オリジナル)

Audio-visual large language models (LLM) have drawn significant attention, yet the fine-grained combination of both input streams is rather under-explored, which is challenging but necessary for LLMs to understand general video inputs. To this end, a fine-grained audio-visual joint representation (FAVOR) learning framework for multimodal LLMs is proposed in this paper, which extends a text-based LLM to simultaneously perceive speech and audio events in the audio input stream and images or videos in the visual input stream, at the frame level. To fuse the audio and visual feature streams into joint representations and to align the joint space with the LLM input embedding space, we propose a causal Q-Former structure with a causal attention module to enhance the capture of causal relations of the audio-visual frames across time. An audio-visual evaluation benchmark (AVEB) is also proposed which comprises six representative single-modal tasks with five cross-modal tasks reflecting audio-visual co-reasoning abilities. While achieving competitive single-modal performance on audio, speech and image tasks in AVEB, FAVOR achieved over 20% accuracy improvements on the video question-answering task when fine-grained information or temporal causal reasoning is required. FAVOR, in addition, demonstrated remarkable video comprehension and reasoning abilities on tasks that are unprecedented by other multimodal LLMs. An interactive demo of FAVOR is available at https://github.com/BriansIDP/AudioVisualLLM.git, and the training code and model checkpoints will be released soon.

arxiv情報

著者 Guangzhi Sun,Wenyi Yu,Changli Tang,Xianzhao Chen,Tian Tan,Wei Li,Lu Lu,Zejun Ma,Chao Zhang
発行日 2023-10-10 05:30:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.SD, eess.AS パーマリンク