Advancements and limitations of LLMs in replicating human color-word associations

要約

カラーワードの関連付けは、人間の認知および設計アプリケーションにおいて基本的な役割を果たします。
大規模な言語モデル(LLM)は広く利用可能になり、自然な会話スキルを備えたさまざまなベンチマークでインテリジェントな行動を実証しています。
ただし、人間の色と単語の関連性を再現する能力は依然として考えられていません。
日本語の17色と80語(8つのカテゴリから10語)を含む、10,000人以上の日本人参加者から収集されたデータを使用して、複数の世代のLLM(GPT-3からGPT-4O)を人間の色と単語の関連付けと比較しました。
私たちの調査結果は、GPT-4oが各色とカテゴリに最適な投票された言葉を予測する際に最高の精度を達成することで、世代全体でLLMパフォーマンスの明確な進行を明らかにしています。
ただし、パフォーマンスの中央値は、視覚入力を使用したGPT-4Oでも約50%でした(チャンスレベル10%)。
さらに、単語のカテゴリと色にわたるパフォーマンスのバリエーションが見つかりました。LLMSはリズムや景観などのカテゴリに優れている傾向がありましたが、感情などのカテゴリに苦労しました。
興味深いことに、色と単語の関連データから推定された色の識別能力は、以前の研究と一致して、人間の色識別パターンと高い相関を示しました。
したがって、基本的な色の識別における合理的なアライメントにもかかわらず、人間とLLMは、それらがそれらの色に割り当てる言葉で依然として体系的に分岐します。
私たちの研究は、LLM機能の進歩とその持続的な制限の両方を強調し、色と単語の関連性を表す際に、人間とLLMの間のセマンティックメモリ構造の系統的な違いの可能性を高めています。

要約(オリジナル)

Color-word associations play a fundamental role in human cognition and design applications. Large Language Models (LLMs) have become widely available and have demonstrated intelligent behaviors in various benchmarks with natural conversation skills. However, their ability to replicate human color-word associations remains understudied. We compared multiple generations of LLMs (from GPT-3 to GPT-4o) against human color-word associations using data collected from over 10,000 Japanese participants, involving 17 colors and 80 words (10 word from eight categories) in Japanese. Our findings reveal a clear progression in LLM performance across generations, with GPT-4o achieving the highest accuracy in predicting the best voted word for each color and category. However, the highest median performance was approximately 50% even for GPT-4o with visual inputs (chance level of 10%). Moreover, we found performance variations across word categories and colors: while LLMs tended to excel in categories such as Rhythm and Landscape, they struggled with categories such as Emotions. Interestingly, color discrimination ability estimated from our color-word association data showed high correlation with human color discrimination patterns, consistent with previous studies. Thus, despite reasonable alignment in basic color discrimination, humans and LLMs still diverge systematically in the words they assign to those colors. Our study highlights both the advancements in LLM capabilities and their persistent limitations, raising the possibility of systematic differences in semantic memory structures between humans and LLMs in representing color-word associations.

arxiv情報

著者 Makoto Fukushima,Shusuke Eshita,Hiroshige Fukuhara
発行日 2025-05-07 04:50:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV, cs.GR, cs.HC パーマリンク