Advancements and limitations of LLMs in replicating human color-word associations

要約

色と単語の関連付けは、人間の認知とデザインの応用において基本的な役割を果たします。
大規模言語モデル (LLM) は広く利用できるようになり、さまざまなベンチマークで自然な会話スキルを備えたインテリジェントな動作を実証しました。
しかし、人間の色と単語の関連付けを再現する能力については、まだ研究が進んでいません。
私たちは、10,000 人を超える日本人参加者から収集した、日本語の 8 つのカテゴリの 17 の色と単語に関するデータを使用して、複数世代の LLM (GPT-3 から GPT-4o まで) を人間の色と単語の関連付けと比較しました。
私たちの調査結果では、特にテキストベースのカラーコードではなく視覚的な入力を使用した場合に、GPT-4o が色とカテゴリごとに最も投票された単語を予測する際に最高の精度を達成しており、世代を超えて LLM のパフォーマンスが明らかに進歩していることが明らかになりました。
ただし、最高のパフォーマンス中央値は、視覚入力を使用した GPT4-o であっても約 50% であり (チャンス レベルは 10%)、パフォーマンス レベルは単語カテゴリと色によって大きく異なり、人間の色と単語の関連付けを完全に再現できていないことを示しています。
一方、色と単語の関連付けデータから推定した色識別能力は、先行研究と同様に、LLMが人間の色識別パターンと高い相関を示すことを示しました。
私たちの研究は、LLM 機能の進歩とその永続的な限界の両方に焦点を当てており、色と単語の関連付けを表現する際の人間と LLM の間の意味記憶構造の違いを示唆しています。

要約(オリジナル)

Color-word associations play a fundamental role in human cognition and design applications. Large Language Models (LLMs) have become widely available and demonstrated intelligent behaviors in various benchmarks with natural conversation skills. However, their ability to replicate human color-word associations remains understudied. We compared multiple generations of LLMs (from GPT-3 to GPT- 4o) against human color-word associations using data collected from over 10,000 Japanese participants, involving 17 colors and words from eight categories in Japanese. Our findings reveal a clear progression in LLM performance across generations, with GPT-4o achieving the highest accuracy in predicting the best voted word for each color and category, particularly when using visual inputs rather than text-based color codes. However, the highest median performance was approximately 50% even for GPT4-o with visual inputs (chance level is 10%), and the performance levels varied significantly across word categories and colors, indicating a failure to fully replicate human color-word associations. On the other hand, color discrimination ability estimated from our color-word association data showed that LLMs demonstrated high correlation with human color discrimination patterns, similarly to previous studies. Our study highlights both the advancements in LLM capabilities and their persistent limitations, suggesting differences in semantic memory structures between humans and LLMs in representing color-word associations.

arxiv情報

著者 Makoto Fukushima,Shusuke Eshita,Hiroshige Fukuhara
発行日 2024-11-04 14:29:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV, cs.GR, cs.HC パーマリンク