Kiki or Bouba? Sound Symbolism in Vision-and-Language Models

要約

人間の言語における音と意味の間のマッピングは、ほとんどが恣意的であると想定されていますが、認知科学の研究では、言語や人口統計グループを超えて、特定の音と意味の間に自明ではない相関関係があることが示されており、これは音の象徴性として知られる現象です。
意味の多くの側面の中で、音の象徴性は特に顕著であり、言語と視覚領域の間のクロスモーダルな関連性に関してよく実証されています。
この研究では、音の象徴性がCLIPや安定拡散などの視覚と言語のモデルに反映されるかどうかという問題に取り組みます。
これらのモデルに固有の知識を調査するためにゼロショット知識探索を使用すると、心理言語学でよく知られているキキブーバ効果と同様に、モデルがこのパターンを示すという強力な証拠が見つかります。
私たちの研究は、計算ツールを使用して音の象徴性を実証し、その性質を理解するための新しい方法を提供します。
私たちのコードは公開されます。

要約(オリジナル)

Although the mapping between sound and meaning in human language is assumed to be largely arbitrary, research in cognitive science has shown that there are non-trivial correlations between particular sounds and meanings across languages and demographic groups, a phenomenon known as sound symbolism. Among the many dimensions of meaning, sound symbolism is particularly salient and well-demonstrated with regards to cross-modal associations between language and the visual domain. In this work, we address the question of whether sound symbolism is reflected in vision-and-language models such as CLIP and Stable Diffusion. Using zero-shot knowledge probing to investigate the inherent knowledge of these models, we find strong evidence that they do show this pattern, paralleling the well-known kiki-bouba effect in psycholinguistics. Our work provides a novel method for demonstrating sound symbolism and understanding its nature using computational tools. Our code will be made publicly available.

arxiv情報

著者 Morris Alper,Hadar Averbuch-Elor
発行日 2024-01-08 07:48:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV, cs.LG パーマリンク