AlignSTS: Speech-to-Singing Conversion via Cross-Modal Alignment

要約

STS (Speech-to-Singing) 音声変換タスクは、音声録音に対応する歌唱サンプルを生成することを目的としていますが、大きな課題に直面しています。それは、ターゲット (歌唱) ピッチ輪郭とソース (音声) コンテンツの間の整合性を学習するのが難しいということです。
テキストのない状況。
この論文では、ピッチや内容などの音声の差異を異なるモダリティとして捉える、明示的なクロスモーダル アライメントに基づく STS モデルである AlignSTS を提案します。
人間がメロディーに合わせて歌詞をどのように歌うかというメカニズムにインスピレーションを得た AlignSTS は、1) 新しいリズム アダプターを採用してターゲットのリズム表現を予測し、コンテンツとピッチの間のモダリティのギャップを橋渡しします。リズム表現はシンプルかつ簡単に計算されます。
効果的な方法であり、離散空間に量子化されます。
2) 予測されたリズム表現を使用して、交差注意に基づいてコンテンツを再調整し、再合成のための交差モーダル融合を実行します。
広範な実験により、AlignSTS が客観的指標と主観的指標の両方の点で優れたパフォーマンスを達成することが示されています。
音声サンプルは https://alignsts.github.io で入手できます。

要約(オリジナル)

The speech-to-singing (STS) voice conversion task aims to generate singing samples corresponding to speech recordings while facing a major challenge: the alignment between the target (singing) pitch contour and the source (speech) content is difficult to learn in a text-free situation. This paper proposes AlignSTS, an STS model based on explicit cross-modal alignment, which views speech variance such as pitch and content as different modalities. Inspired by the mechanism of how humans will sing the lyrics to the melody, AlignSTS: 1) adopts a novel rhythm adaptor to predict the target rhythm representation to bridge the modality gap between content and pitch, where the rhythm representation is computed in a simple yet effective way and is quantized into a discrete space; and 2) uses the predicted rhythm representation to re-align the content based on cross-attention and conducts a cross-modal fusion for re-synthesize. Extensive experiments show that AlignSTS achieves superior performance in terms of both objective and subjective metrics. Audio samples are available at https://alignsts.github.io.

arxiv情報

著者 Ruiqi Li,Rongjie Huang,Lichao Zhang,Jinglin Liu,Zhou Zhao
発行日 2023-05-24 16:37:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.MM, cs.SD, eess.AS パーマリンク