Towards Leveraging Contrastively Pretrained Neural Audio Embeddings for Recommender Tasks

要約

音楽レコメンダー システムは、音楽作品、アーティスト、ユーザー間の関係を把握するためにネットワーク ベースのモデルを頻繁に利用します。
これらの関係は予測のための貴重な洞察を提供しますが、新しい音楽作品やアーティストは、初期情報が不十分なためにコールドスタートの問題に直面することがよくあります。
これに対処するには、音楽からコンテンツベースの情報を直接抽出して、協調フィルタリングベースの方法を強化できます。
これまでのアプローチは、この目的のために手作りのオーディオ機能に依存していましたが、私たちは、より豊かでニュアンスのある音楽表現を提供する、対照的に事前トレーニングされたニューラルオーディオ埋め込みモデルの使用を検討しています。
私たちの実験は、ニューラル埋め込み、特に対照言語音声事前トレーニング (CLAP) モデルで生成された埋め込みが、グラフベースのフレームワーク内で音楽推奨タスクを強化するための有望なアプローチを提示することを示しています。

要約(オリジナル)

Music recommender systems frequently utilize network-based models to capture relationships between music pieces, artists, and users. Although these relationships provide valuable insights for predictions, new music pieces or artists often face the cold-start problem due to insufficient initial information. To address this, one can extract content-based information directly from the music to enhance collaborative-filtering-based methods. While previous approaches have relied on hand-crafted audio features for this purpose, we explore the use of contrastively pretrained neural audio embedding models, which offer a richer and more nuanced representation of music. Our experiments demonstrate that neural embeddings, particularly those generated with the Contrastive Language-Audio Pretraining (CLAP) model, present a promising approach to enhancing music recommendation tasks within graph-based frameworks.

arxiv情報

著者 Florian Grötschla,Luca Strässle,Luca A. Lanzendörfer,Roger Wattenhofer
発行日 2024-09-13 17:53:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.SD, eess.AS パーマリンク