The language of sounds unheard: Exploring musical timbre semantics of large language models

要約

タイトル: 聞こえない音の言語:大規模言語モデルの音楽音色セマンティックスを探る
要約:
– 音の意味的要素は、聴覚的感覚経験の性質を理解する上で中心的な役割を果たし、知覚、言語、意味のより広い関係を解明するためにも重要である。
– 大規模言語モデル(LLM)の急速な増加を受けて、本研究では、人間と同様の知覚セマンティクスの組織をLLMsが示すかどうかを調べた。
– 最新のLLMに基づくチャットボットであるChatGPTを使用し、さまざまなセマンティックスケールにおいて、音楽楽器の音を評価するよう促した。ChatGPTは、人間の評価と部分的に相関する意味プロファイルを生成し、音楽の明るさ(明るい-暗い)やピッチの高さ(深い-高い)などの知られた心理物理学的音楽の寸法に沿った強固な同意を示した。
– 探索的因子分析により、チャットボットと人間の評価の潜在因子空間には同じ次元性があり、異なる空間配置があることが示された。
– 意外にも、チャットボットは人間の評価と同程度の内部変動を示した。
– 本研究は、LLMsが人間の知覚的経験の重要な寸法を捉える可能性を示している。

要約(オリジナル)

Semantic dimensions of sound have been playing a central role in understanding the nature of auditory sensory experience as well as the broader relation between perception, language, and meaning. Accordingly, and given the recent proliferation of large language models (LLMs), here we asked whether such models exhibit an organisation of perceptual semantics similar to those observed in humans. Specifically, we prompted ChatGPT, a chatbot based on a state-of-the-art LLM, to rate musical instrument sounds on a set of 20 semantic scales. We elicited multiple responses in separate chats, analogous to having multiple human raters. ChatGPT generated semantic profiles that only partially correlated with human ratings, yet showed robust agreement along well-known psychophysical dimensions of musical sounds such as brightness (bright-dark) and pitch height (deep-high). Exploratory factor analysis suggested the same dimensionality but different spatial configuration of a latent factor space between the chatbot and human ratings. Unexpectedly, the chatbot showed degrees of internal variability that were comparable in magnitude to that of human ratings. Our work highlights the potential of LLMs to capture salient dimensions of human sensory experience.

arxiv情報

著者 Kai Siedenburg,Charalampos Saitis
発行日 2023-05-04 10:05:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク