要約
対話の分離には、映画やテレビ番組などの混合物から対話信号を分離することが含まれます。
これは、放送関連アプリケーションのダイアログ拡張を可能にするために必要な手順となる可能性があります。
この論文では、対話分離のための ConcateNet を提案します。これは、ドメイン外信号のより良い一般化を目的とした、ローカルおよびグローバルの特徴を処理するための新しいアプローチに基づいています。
ConcateNet は、ノイズ リダクションに重点を置いた、公開されているデータセットを使用してトレーニングされ、3 つのデータセットを使用して評価されます。ConcateNet の競争力のあるパフォーマンスを示す 2 つのノイズ リダクションに重点を置いたデータセット (ドメイン内)、およびブロードキャストに重点を置いたデータセット (ドメイン外)
)、検討されている最先端のノイズ低減方法と比較して、提案されたアーキテクチャの一般化パフォーマンスが優れていることが検証されています。
要約(オリジナル)
Dialogue separation involves isolating a dialogue signal from a mixture, such as a movie or a TV program. This can be a necessary step to enable dialogue enhancement for broadcast-related applications. In this paper, ConcateNet for dialogue separation is proposed, which is based on a novel approach for processing local and global features aimed at better generalization for out-of-domain signals. ConcateNet is trained using a noise reduction-focused, publicly available dataset and evaluated using three datasets: two noise reduction-focused datasets (in-domain), which show competitive performance for ConcateNet, and a broadcast-focused dataset (out-of-domain), which verifies the better generalization performance for the proposed architecture compared to considered state-of-the-art noise-reduction methods.
arxiv情報
著者 | Mhd Modar Halimeh,Matteo Torcoli,Emanuël Habets |
発行日 | 2024-08-16 13:22:55+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google