要約
ここ数十年で、神経科学的および心理的研究は、味と聴覚認識の間の直接的な関係を追跡してきました。
この記事では、味覚情報を音楽に変換することができるマルチモーダル生成モデルについて、この基礎的な研究に基づいています。
この分野の最先端の最先端の簡単なレビューを提供し、重要な調査結果と方法論を強調しています。
生成音楽モデル(MusicGen)の微調整されたバージョンを使用して、各音楽に提供される詳細な味の説明に基づいて音楽を生成する実験を提示します。
結果は有望です。参加者の($ n = 111 $)評価によれば、微調整されたモデルは、非ファインチューニングモデルと比較して入力味の説明をより首尾一貫して反映する音楽を生成します。
この研究は、AI、音、味の間の具体化された相互作用を理解し、開発するための重要なステップを表しており、生成AIの分野で新しい可能性を開きます。
データセット、コード、および事前トレーニングを受けたモデルをhttps://osf.io/xs5jy/にリリースします。
要約(オリジナル)
In recent decades, neuroscientific and psychological research has traced direct relationships between taste and auditory perceptions. This article explores multimodal generative models capable of converting taste information into music, building on this foundational research. We provide a brief review of the state of the art in this field, highlighting key findings and methodologies. We present an experiment in which a fine-tuned version of a generative music model (MusicGEN) is used to generate music based on detailed taste descriptions provided for each musical piece. The results are promising: according the participants’ ($n=111$) evaluation, the fine-tuned model produces music that more coherently reflects the input taste descriptions compared to the non-fine-tuned model. This study represents a significant step towards understanding and developing embodied interactions between AI, sound, and taste, opening new possibilities in the field of generative AI. We release our dataset, code and pre-trained model at: https://osf.io/xs5jy/.
arxiv情報
著者 | Matteo Spanio,Massimiliano Zampini,Antonio Rodà,Franco Pierucci |
発行日 | 2025-03-04 17:48:48+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google