K-pop Lyric Translation: Dataset, Analysis, and Neural-Modelling

要約

歌詞の翻訳は、1 世紀以上にわたって研究されてきた分野であり、現在、計算言語学の研究者を魅了しています。
私たちは以前の研究で 2 つの限界を特定しました。
第一に、歌詞の翻訳研究は主に西洋のジャンルや言語に焦点を当てており、人気があるにもかかわらず、K-POP を中心としたこれまでの研究はありませんでした。
第二に、歌詞翻訳の分野は、公的に利用可能なデータセットの不足に悩まされています。
私たちの知る限り、そのようなデータセットは存在しません。
歌詞の翻訳研究におけるジャンルと言語の範囲を広げるために、約 89% が K-POP の歌詞で構成される、新しい歌える歌詞翻訳データセットを導入します。
このデータセットは、韓国語と英語の歌詞を行ごと、セクションごとに配置します。
私たちはこのデータセットを活用して、K-POP の歌詞翻訳のユニークな特徴を明らかにし、広く研究されている他のジャンルと区別し、ニューラル歌詞翻訳モデルを構築しました。これにより、歌いやすい歌詞翻訳のための専用データセットの重要性が強調されました。

要約(オリジナル)

Lyric translation, a field studied for over a century, is now attracting computational linguistics researchers. We identified two limitations in previous studies. Firstly, lyric translation studies have predominantly focused on Western genres and languages, with no previous study centering on K-pop despite its popularity. Second, the field of lyric translation suffers from a lack of publicly available datasets; to the best of our knowledge, no such dataset exists. To broaden the scope of genres and languages in lyric translation studies, we introduce a novel singable lyric translation dataset, approximately 89\% of which consists of K-pop song lyrics. This dataset aligns Korean and English lyrics line-by-line and section-by-section. We leveraged this dataset to unveil unique characteristics of K-pop lyric translation, distinguishing it from other extensively studied genres, and to construct a neural lyric translation model, thereby underscoring the importance of a dedicated dataset for singable lyric translations.

arxiv情報

著者 Haven Kim,Jongmin Jung,Dasaem Jeong,Juhan Nam
発行日 2024-03-14 15:36:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG, cs.MM パーマリンク