Translate the Beauty in Songs: Jointly Learning to Align Melody and Translate Lyrics


この論文では、歌詞翻訳と歌詞とメロディーのアラインメントを共同でモデル化することにより、自動曲翻訳の全体論的ソリューションである適応グループ化 (LTAG) を使用した歌詞とメロディーの翻訳を提案します。
これは、ソースの歌詞を同時に翻訳し、アダプティブ ノート グループ化モジュールを介して各デコード ステップで整列されたノートの数を決定できる、新しいエンコーダー デコーダー フレームワークです。
データ不足に対処するために、このタスク専用に注釈を付けた少量のトレーニング データを委託し、逆翻訳によって大量の拡張データを使用しました。
英語と中国語の歌の翻訳データ セットに対して行われた実験では、自動評価と人間による評価の両方で、モデルの有効性が示されました。


Song translation requires both translation of lyrics and alignment of music notes so that the resulting verse can be sung to the accompanying melody, which is a challenging problem that has attracted some interests in different aspects of the translation process. In this paper, we propose Lyrics-Melody Translation with Adaptive Grouping (LTAG), a holistic solution to automatic song translation by jointly modeling lyrics translation and lyrics-melody alignment. It is a novel encoder-decoder framework that can simultaneously translate the source lyrics and determine the number of aligned notes at each decoding step through an adaptive note grouping module. To address data scarcity, we commissioned a small amount of training data annotated specifically for this task and used large amounts of augmented data through back-translation. Experiments conducted on an English-Chinese song translation data set show the effectiveness of our model in both automatic and human evaluation.


著者 Chengxi Li,Kai Fan,Jiajun Bu,Boxing Chen,Zhongqiang Huang,Zhi Yu
発行日 2023-03-28 03:17:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク