要約
New York Times Connections ゲームは、ワード パズル愛好家にとって人気があり、やりがいのあるゲームとして登場しました。
私たちは 200 の Connections ゲームを収集し、専門家および初心者の人間プレイヤーに対する最先端の大規模言語モデル (LLM) のパフォーマンスを評価します。
私たちの結果は、さまざまなベンチマークで優れた推論能力を示している最高のパフォーマンスの LLM である GPT-4o でさえ、ゲームの 8% しか完全には解決できないことを示しています。
GPT-4o と比較すると、初心者プレーヤーと熟練プレーヤーのパフォーマンスが向上し、人間の熟練プレーヤーのパフォーマンスが GPT-4o を大幅に上回ります。
理解を深めるために、Connections ゲームで単語をうまく分類するために必要な知識タイプの分類を作成し、LLM が連想的、百科事典的、言語的な知識に苦労していることを明らかにしました。
私たちの調査結果は、ニューヨーク タイムズ コネクション ゲームが、人間と AI システムの抽象的な推論能力を評価するための挑戦的なベンチマークであることを確立しました。
要約(オリジナル)
The New York Times Connections game has emerged as a popular and challenging pursuit for word puzzle enthusiasts. We collect 200 Connections games to evaluate the performance of state-of-the-art large language models (LLMs) against expert and novice human players. Our results show that even the best-performing LLM, GPT-4o, which has otherwise shown impressive reasoning abilities on a wide variety of benchmarks, can only fully solve 8% of the games. Compared to GPT-4o, novice and expert players perform better, with expert human players significantly outperforming GPT-4o. To deepen our understanding we create a taxonomy of the knowledge types required to successfully categorize words in the Connections game, revealing that LLMs struggle with associative, encyclopedic, and linguistic knowledge. Our findings establish the New York Times Connections game as a challenging benchmark for evaluating abstract reasoning capabilities in humans and AI systems.
arxiv情報
著者 | Prisha Samadarshi,Mariam Mustafa,Anushka Kulkarni,Raven Rothkopf,Tuhin Chakrabarty,Smaranda Muresan |
発行日 | 2024-06-18 15:02:28+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google