How does ChatGPT rate sound semantics?

要約

タイトル:ChatGPTは音声意味をどのように評価するか?

要約:

– 音の意味的寸法は、聴覚的感覚体験の本質や知覚、言語、意味の広い関係を理解する上で中心的な役割を果たしています。
– 最近の大規模言語モデル(LLMs)の急増を考慮して、本論文では、ChatGPTという最新のLLMに基づくチャットボットを用いて、20個の意味的尺度に基づいて楽器の音を評価しました。
– 複数のチャットで複数の応答を促し、複数の人間の評価者がいる状況と同様に実験を行いました。
– ChatGPTは、人間の評価と部分的に相関する意味的プロファイルを生成しましたが、明るさ(明るさ-暗さ)や高さ(深さ-高さ)など、音楽音響特性のよく知られた心理物理学的寸法において強力な合意が示されました。
– 探索的因子分析により、チャットボットと人間の評価の潜在因子空間の寸法は同じであるが、空間配置が異なることが示唆された。
– 意外にも、チャットボットは人間の評価と同程度の内部変動度を示しました。
– 本研究は、LLMが人間の感覚体験の顕著な寸法を捉える可能性を示しています。

要約(オリジナル)

Semantic dimensions of sound have been playing a central role in understanding the nature of auditory sensory experience as well as the broader relation between perception, language, and meaning. Accordingly, and given the recent proliferation of large language models (LLMs), here we asked whether such models exhibit an organisation of perceptual semantics similar to those observed in humans. Specifically, we prompted ChatGPT, a chatbot based on a state-of-the-art LLM, to rate musical instrument sounds on a set of 20 semantic scales. We elicited multiple responses in separate chats, analogous to having multiple human raters. ChatGPT generated semantic profiles that only partially correlated with human ratings, yet showed robust agreement along well-known psychophysical dimensions of musical sounds such as brightness (bright-dark) and pitch height (deep-high). Exploratory factor analysis suggested the same dimensionality but different spatial configuration of a latent factor space between the chatbot and human ratings. Unexpectedly, the chatbot showed degrees of internal variability that were comparable in magnitude to that of human ratings. Our work highlights the potential of LLMs to capture salient dimensions of human sensory experience.

arxiv情報

著者 Kai Siedenburg,Charalampos Saitis
発行日 2023-04-16 16:50:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク