Watch and Listen: Understanding Audio-Visual-Speech Moments with Multimodal LLM

要約

人間は、視覚的および聴覚的な手がかりを統合することにより、ビデオの瞬間を自然に理解しています。
たとえば、「科学者は劇的なオーケストラ音楽が再生するように野生生物の保全について情熱的に話し、視聴者がうなずき、称賛する」などのビデオのシーンをローカライズするには、視覚、音声、音声信号の同時処理が必要です。
ただし、既存のモデルは、オーディオ情報を効果的に融合および解釈するのに苦労しており、包括的なビデオの時間的理解の能力を制限しています。
これに対処するために、視覚、音声、音声モダリティの統合を通じて、全体的なビデオの時間的理解のために設計されたトリプルモダリティの大規模な言語モデルであるTrisenseを提示します。
Trisenseの中心は、入力クエリに基づいてモダリティの貢献を適応的に再重視し、モダリティドロップアウトでの堅牢なパフォーマンスを可能にし、利用可能な入力の柔軟な組み合わせを可能にするクエリベースのコネクタです。
Trisenseのマルチモーダル機能をサポートするために、Trisense-2Mを導入します。Trisense-2Mは、微調整されたLLMSを搭載した自動パイプラインを介して生成された200万を超えるキュレーションされたサンプルの高品質のデータセットです。
Trisense-2Mには、長い形式のビデオと多様なモダリティの組み合わせが含まれており、幅広い一般化が促進されます。
複数のベンチマークにわたる広範な実験は、Trisenseの有効性と、マルチモーダルビデオ分析を進める可能性を示しています。
コードとデータセットは公開されます。

要約(オリジナル)

Humans naturally understand moments in a video by integrating visual and auditory cues. For example, localizing a scene in the video like ‘A scientist passionately speaks on wildlife conservation as dramatic orchestral music plays, with the audience nodding and applauding’ requires simultaneous processing of visual, audio, and speech signals. However, existing models often struggle to effectively fuse and interpret audio information, limiting their capacity for comprehensive video temporal understanding. To address this, we present TriSense, a triple-modality large language model designed for holistic video temporal understanding through the integration of visual, audio, and speech modalities. Central to TriSense is a Query-Based Connector that adaptively reweights modality contributions based on the input query, enabling robust performance under modality dropout and allowing flexible combinations of available inputs. To support TriSense’s multimodal capabilities, we introduce TriSense-2M, a high-quality dataset of over 2 million curated samples generated via an automated pipeline powered by fine-tuned LLMs. TriSense-2M includes long-form videos and diverse modality combinations, facilitating broad generalization. Extensive experiments across multiple benchmarks demonstrate the effectiveness of TriSense and its potential to advance multimodal video analysis. Code and dataset will be publicly released.

arxiv情報

著者 Zinuo Li,Xian Zhang,Yongxin Guo,Mohammed Bennamoun,Farid Boussaid,Girish Dwivedi,Luqi Gong,Qiuhong Ke
発行日 2025-05-23 17:04:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク