AlignSTS: Speech-to-Singing Conversion via Cross-Modal Alignment

要約

タイトル: AlignSTS: クロスモーダルアライメントによる音声から歌声への変換

要約:
– STS(音声から歌声への変換)タスクは、音声レコーディングに対応する歌声サンプルを生成することを目的としています。
– このタスクには、テキストがない場合にターゲット(歌唱)ピッチコンターとソース(音声)コンテンツのアライメントが学習しにくいという大きな課題があります。
– 本論文では、明示的なクロスモーダルアライメントを基盤としたSTSモデルであるAlignSTSを提案しています。
– AlignSTSは、音声のピッチやコンテンツなどのバリアンスを異なるモダリティとして捉え、歌詞にメロディを歌う人間のメカニズムに着想を得ています。
– AlignSTSは、以下のような新しいリズムアダプタを採用して、コンテンツとピッチのモダリティ差を埋めるために目標リズム表現を予測し、シンプルかつ効果的な方法で計算し、離散的なスペースで量子化します。
– AlignSTSは、予測されたリズム表現を使用して、クロスアテンションに基づいてコンテンツを再配置し、リシンセサイズのためのクロスモーダルフュージョンを実行します。
– 広範囲な実験により、AlignSTSが客観的および主観的なメトリックの両方で優れた性能を発揮することが示されます。 音声サンプルはhttps://alignsts.github.ioで利用可能です。

要約(オリジナル)

The speech-to-singing (STS) voice conversion task aims to generate singing samples corresponding to speech recordings while facing a major challenge: the alignment between the target (singing) pitch contour and the source (speech) content is difficult to learn in a text-free situation. This paper proposes AlignSTS, an STS model based on explicit cross-modal alignment, which views speech variance such as pitch and content as different modalities. Inspired by the mechanism of how humans will sing the lyrics to the melody, AlignSTS: 1) adopts a novel rhythm adaptor to predict the target rhythm representation to bridge the modality gap between content and pitch, where the rhythm representation is computed in a simple yet effective way and is quantized into a discrete space; and 2) uses the predicted rhythm representation to re-align the content based on cross-attention and conducts a cross-modal fusion for re-synthesize. Extensive experiments show that AlignSTS achieves superior performance in terms of both objective and subjective metrics. Audio samples are available at https://alignsts.github.io.

arxiv情報

著者 Ruiqi Li,Rongjie Huang,Lichao Zhang,Jinglin Liu,Zhou Zhao
発行日 2023-05-09 13:53:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL, cs.MM, cs.SD, eess.AS パーマリンク