要約
オーディオビジュアルターゲットスピーカー抽出(AV-TSE)は、時間同期された視覚キューを使用して、オーディオ混合物から特定のターゲットスピーカーの音声を分離することを目的としています。
実際のシナリオでは、AV-TSEの安定性を損なうさまざまな障害のために、視覚的な手がかりが常に利用できるとは限りません。
この課題にもかかわらず、人間はターゲットスピーカーが見えない場合でも、時間の経過とともに注意深い勢いを維持できます。
この論文では、Momentum Multi-Modal Target Speaker抽出(MOMUSE)を紹介します。これは、メモリにスピーカーのアイデンティティの勢いを保持し、ターゲットスピーカーを継続的に追跡できるようにします。
リアルタイムの推論用に設計されたMomuseは、視覚的な手がかりと動的に更新されたスピーカーの勢いの両方からのガイダンスを備えた現在の音声ウィンドウを抽出します。
実験結果は、特に視覚的な手がかりが深刻な障害を伴うシナリオで、Momuseが大幅な改善を示すことを示しています。
要約(オリジナル)
Audio-visual Target Speaker Extraction (AV-TSE) aims to isolate the speech of a specific target speaker from an audio mixture using time-synchronized visual cues. In real-world scenarios, visual cues are not always available due to various impairments, which undermines the stability of AV-TSE. Despite this challenge, humans can maintain attentional momentum over time, even when the target speaker is not visible. In this paper, we introduce the Momentum Multi-modal target Speaker Extraction (MoMuSE), which retains a speaker identity momentum in memory, enabling the model to continuously track the target speaker. Designed for real-time inference, MoMuSE extracts the current speech window with guidance from both visual cues and dynamically updated speaker momentum. Experimental results demonstrate that MoMuSE exhibits significant improvement, particularly in scenarios with severe impairment of visual cues.
arxiv情報
著者 | Junjie Li,Ke Zhang,Shuai Wang,Kong Aik Lee,Man-Wai Mak,Haizhou Li |
発行日 | 2025-03-31 13:31:19+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google