要約
このペーパーでは、静かな話の顔のビデオから直接自然でわかりやすいスピーチを生成するために設計された新しいビデオからスピーチ(V2S)フレームワークであるV2SFLOWを紹介します。
最近のV2Sシステムは、スピーカーと語彙が限られている制約付きデータセットで有望な結果を示していますが、そのパフォーマンスは、音声信号の固有の変動性と複雑さのために、実際の制約のないデータセットでしばしば悪化します。
これらの課題に対処するために、音声信号を管理可能な部分空間(コンテンツ、ピッチ、スピーカー情報)に分解し、それぞれが異なる音声属性を表し、視覚入力から直接予測します。
これらの予測された属性からコヒーレントで現実的な音声を生成するために、ランダムノイズからターゲット音声分布に効率的な確率的経路をモデル化するトランスアーキテクチャに構築された修正フローマッチングデコーダーを採用します。
広範な実験は、V2SFLOWが最先端の方法を大幅に上回ることを示しており、地上の真理の発話の自然性を超えることさえあります。
コードとモデルは、https://github.com/kaistmm/v2sflowで入手できます
要約(オリジナル)
In this paper, we introduce V2SFlow, a novel Video-to-Speech (V2S) framework designed to generate natural and intelligible speech directly from silent talking face videos. While recent V2S systems have shown promising results on constrained datasets with limited speakers and vocabularies, their performance often degrades on real-world, unconstrained datasets due to the inherent variability and complexity of speech signals. To address these challenges, we decompose the speech signal into manageable subspaces (content, pitch, and speaker information), each representing distinct speech attributes, and predict them directly from the visual input. To generate coherent and realistic speech from these predicted attributes, we employ a rectified flow matching decoder built on a Transformer architecture, which models efficient probabilistic pathways from random noise to the target speech distribution. Extensive experiments demonstrate that V2SFlow significantly outperforms state-of-the-art methods, even surpassing the naturalness of ground truth utterances. Code and models are available at: https://github.com/kaistmm/V2SFlow
arxiv情報
著者 | Jeongsoo Choi,Ji-Hoon Kim,Jinyu Li,Joon Son Chung,Shujie Liu |
発行日 | 2025-05-30 17:57:46+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google