Synthetic Lyrics Detection Across Languages and Genres

要約

近年、音楽コンテンツ、特に歌詞を生成するために大規模な言語モデル(LLM)を使用して人気が高まっています。
これらの進歩は、アーティストに貴重なツールを提供し、創造的なプロセスを強化しますが、著作権違反、消費者の満足度、コンテンツスパムについての懸念も高めます。
以前の研究では、さまざまなドメインでのコンテンツの検出が調査されています。
ただし、テキストモダリティ、歌詞、音楽に焦点を当てた作品はありません。
このギャップに対処するために、複数の言語、音楽ジャンル、アーティストからのリアルと合成の歌詞の多様なデータセットをキュレーションしました。
生成パイプラインは、人間と自動化された方法の両方を使用して検証されました。
以前に未開拓のデータ型である歌詞に関する既存の合成テキスト検出アプローチの徹底的な評価を実行しました。
また、監視されていないドメインの適応を通じて、最高のパフォーマンスの機能を歌詞に適応させる方法を調査しました。
音楽と産業の両方の制約に従って、これらのアプローチが言語間でどの程度うまく一般化され、データの可用性でスケーリングし、多言語のコンテンツを処理し、少ないショット設定で新しいジャンルで実行するかを調べました。
私たちの調査結果は、AIが生成された音楽に関する政策決定を通知し、ユーザーの透明性を高めることができる有望な結果を示しています。

要約(オリジナル)

In recent years, the use of large language models (LLMs) to generate music content, particularly lyrics, has gained in popularity. These advances provide valuable tools for artists and enhance their creative processes, but they also raise concerns about copyright violations, consumer satisfaction, and content spamming. Previous research has explored content detection in various domains. However, no work has focused on the text modality, lyrics, in music. To address this gap, we curated a diverse dataset of real and synthetic lyrics from multiple languages, music genres, and artists. The generation pipeline was validated using both humans and automated methods. We performed a thorough evaluation of existing synthetic text detection approaches on lyrics, a previously unexplored data type. We also investigated methods to adapt the best-performing features to lyrics through unsupervised domain adaptation. Following both music and industrial constraints, we examined how well these approaches generalize across languages, scale with data availability, handle multilingual language content, and perform on novel genres in few-shot settings. Our findings show promising results that could inform policy decisions around AI-generated music and enhance transparency for users.

arxiv情報

著者 Yanis Labrak,Markus Frohmann,Gabriel Meseguer-Brocal,Elena V. Epure
発行日 2025-04-24 07:21:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク