VALOR: Vision-Audio-Language Omni-Perception Pretraining Model and Dataset

要約

この論文では、マルチモーダルな理解と生成のための視覚・音声・言語オムニ知覚事前訓練モデル (VALOR) を提案します。
広く研究されている視覚言語事前トレーニングモデルとは異なり、VALOR は視覚、音声、言語の関係をエンドツーエンドの方法で共同モデル化します。
これには、単一モダリティ表現用の 3 つの個別のエンコーダーと、マルチモーダル条件付きテキスト生成用のデコーダーが含まれています。
VALOR モデルを事前トレーニングするために、マルチモーダルグループ化アライメント (MGA) とマルチモーダルグループ化キャプション (MGC) を含む 2 つの口実タスクを設計します。
MGA は、視覚、言語、および音声を同じ共通スペースに投影し、視覚言語、音声言語、および視聴覚言語の連携を同時に構築します。
MGC は、視覚、音声、またはその両方の条件でテキストトークンを生成する方法を学習します。
視覚・音声・言語の事前トレーニング研究を促進するために、私たちは VALOR-1M という名前の大規模で高品質な 3 モダリティデータセットを構築します。このデータセットには、人間による注釈付きの視聴覚キャプションを備えた 100 万本の可聴ビデオが含まれています。
広範な実験により、VALOR は強力なマルチモーダル相関関係を学習し、さまざまな入力モダリティ (視覚言語、音声言語、視聴覚言語など) を使用したさまざまな下流タスク (検索、キャプション、質問応答など) に一般化できることが示されています。
VALOR は、一連の公開クロスモダリティベンチマークで新しい最先端のパフォーマンスを実現します。
コードとデータはプロジェクトページ https://casia-iva-group.github.io/projects/VALOR で入手できます。

要約(オリジナル)

In this paper, we propose a Vision-Audio-Language Omni-peRception pretraining model (VALOR) for multi-modal understanding and generation. Different from widely-studied vision-language pretraining models, VALOR jointly models relationships of vision, audio and language in an end-to-end manner. It contains three separate encoders for single modality representations, and a decoder for multimodal conditional text generation. We design two pretext tasks to pretrain VALOR model, including Multimodal Grouping Alignment (MGA) and Multimodal Grouping Captioning (MGC). MGA projects vision, language and audio to the same common space, building vision-language, audio-language and audiovisual-language alignment simultaneously. MGC learns how to generate text tokens in conditions of vision, audio or their both. To promote vision-audio-language pretraining research, we construct a large-scale high-quality tri-modality dataset named VALOR-1M, which contains 1M audiable videos with human annotated audiovisual captions. Extensive experiments show that VALOR can learn strong multimodal correlations and be generalized to various downstream tasks (e.g., retrieval, captioning and question answering), with different input modalities (e.g., vision-language, audio-language and audiovisual-language). VALOR achieves new state-of-the-art performances on series of public cross-modality benchmarks. Code and data are available at project page https://casia-iva-group.github.io/projects/VALOR.

arxiv情報

著者	Jing Liu,Sihan Chen,Xingjian He,Longteng Guo,Xinxin Zhu,Weining Wang,Jinhui Tang
発行日	2025-01-06 09:10:55+00:00
arxivサイト	arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

VALOR: Vision-Audio-Language Omni-Perception Pretraining Model and Dataset

要約

要約(オリジナル)

arxiv情報

提供元, 利用サービス

最近の投稿

最近のコメント

アーカイブ

カテゴリー