要約
基礎モデルと大規模な言語モデル(LLMS)の急速な進歩は、ミトリモーダル入力データから恩恵を受ける機械学習システムの機能を大幅に改善しました。
ただし、既存のマルチモーダルモデルは、主に事前に訓練されたLLMSの上に構築されており、他のモダリティにわたる時間的依存関係の正確なモデリングを制限することができ、したがってマルチモーダル入力を共同で処理およびレバレッジするモデルの能力を制限します。
LLMスタイル(デコーダーのみの)モデルのテキスト、ビデオ、および音声モダリティの整合性を具体的に調査するために、単純化されたマルチモーダル生成タスク、ビデオテキスト(VTT):対応するテキストと話す人のビデオの両方に条件付けられた音声生成を検討します。
究極の目標は、テキストに従うだけでなく、ビデオと一時的に一致し、表情と一致するスピーチを生成することです。
この論文では、最初に、LLMスタイルのアーキテクチャを採用して視覚、テキスト、および音声入力を共有サブスペースに埋め込み、すべてのモダリティを一時的に整合したトークンストリームとして扱う統一されたマルチモーダルデコーダーのみの変圧器モデルであるVisatronicを最初に紹介します。
次に、さまざまなトークンミキシング戦略を慎重に検討して、ビデオとテキストコンディショニングがオーディオが生成されるステップに入力されるステップから情報を伝播する最良の方法を理解します。
挑戦的なVoxceleB2データセットのビザトロニクスを広範囲に評価し、VoxceleB2で訓練されたVisatronicが4.5%WERで訓練されたLRS3でのみ訓練された以前のSOTAメソッドを上回るLRS3へのゼロショット一般化を実証し、21.4%を報告します。
さらに、生成された音声と参照音声の間の音素レベルの時間的アライメントを測定するように特別に設計された新しい客観的メトリック、Timesyncを提案し、同期の品質をさらに確保します。
デモ:https://apple.github.io/visatronic-demo/
要約(オリジナル)
The rapid progress of foundation models and large language models (LLMs) has fueled significantly improvement in the capabilities of machine learning systems that benefit from mutlimodal input data. However, existing multimodal models are predominantly built on top of pre-trained LLMs, which can limit accurate modeling of temporal dependencies across other modalities and thus limit the model’s ability to jointly process and leverage multimodal inputs. To specifically investigate the alignment of text, video, and speech modalities in LLM-style (decoder-only) models, we consider a simplified multimodal generation task, Video-Text to Speech (VTTS): speech generation conditioned on both its corresponding text and video of talking people. The ultimate goal is to generate speech that not only follows the text but also aligns temporally with the video and is consistent with the facial expressions. In this paper, we first introduce Visatronic, a unified multimodal decoder-only transformer model that adopts an LLM-style architecture to embed visual, textual, and speech inputs into a shared subspace, treating all modalities as temporally aligned token streams. Next, we carefully explore different token mixing strategies to understand the best way to propagate information from the steps where video and text conditioning is input to the steps where the audio is generated. We extensively evaluate Visatronic on the challenging VoxCeleb2 dataset and demonstrate zero-shot generalization to LRS3, where Visatronic, trained on VoxCeleb2, achieves a 4.5% WER, outperforming prior SOTA methods trained only on LRS3, which report a 21.4% WER. Additionally, we propose a new objective metric, TimeSync, specifically designed to measure phoneme-level temporal alignment between generated and reference speech, further ensuring synchronization quality. Demo: https://apple.github.io/visatronic-demo/
arxiv情報
著者 | Akshita Gupta,Tatiana Likhomanenko,Karren Dai Yang,Richard He Bai,Zakaria Aldeneh,Navdeep Jaitly |
発行日 | 2025-05-29 17:58:02+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google