What does Kiki look like? Cross-modal associations between speech sounds and visual shapes in vision-and-language models

要約

人間は、特定の新しい単語を視覚的な形状に一致させるときに、明確なクロスモーダルの好みを持っています。
これらの好みが、私たちの言語処理、言語学習、および信号意味マッピングの起源において重要な役割を果たしていることが証拠によって示唆されています。
視覚と言語 (VLM) モデルなどの AI におけるマルチモーダル モデルの台頭により、これらのモデルがエンコードする視覚と言語の関連性の種類と、それらが人間の表現と一致するかどうかを明らかにすることがますます重要になっています。
人間を使った実験から情報を得て、私たちは 4 つの VLM を調べて、よく知られている人間のクロスモーダル選好であるブーバキキ効果を調べて比較しました。
この効果について決定的な証拠は見つかりませんでしたが、結果がアーキテクチャ設計、モデルのサイズ、トレーニングの詳細などのモデルの機能に依存する可能性があることを示唆しています。
私たちの発見は、人間の認知におけるブーバ・キキ効果の起源と、人間のクロスモーダル関連とよく一致する VLM の将来の開発に関する議論に情報を提供します。

要約(オリジナル)

Humans have clear cross-modal preferences when matching certain novel words to visual shapes. Evidence suggests that these preferences play a prominent role in our linguistic processing, language learning, and the origins of signal-meaning mappings. With the rise of multimodal models in AI, such as vision- and-language (VLM) models, it becomes increasingly important to uncover the kinds of visio-linguistic associations these models encode and whether they align with human representations. Informed by experiments with humans, we probe and compare four VLMs for a well-known human cross-modal preference, the bouba-kiki effect. We do not find conclusive evidence for this effect but suggest that results may depend on features of the models, such as architecture design, model size, and training details. Our findings inform discussions on the origins of the bouba-kiki effect in human cognition and future developments of VLMs that align well with human cross-modal associations.

arxiv情報

著者 Tessa Verhoef,Kiana Shahrasbi,Tom Kouwenhoven
発行日 2024-07-25 12:09:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク