Show, Don’t Tell: Evaluating Large Language Models Beyond Textual Understanding with ChildPlay

要約

私たちは、GPT-3.5 や GPT-4 などの LLM が、特に非言語領域において広範な認知機能を備えているという仮説を調査します。
私たちのアプローチは、戦略的思考と意思決定を評価するために、ASCII 経由でエンコードされた三目並べ、コネクト フォー、バトルシップなどのゲームを組み込むことで、標準的な言語ベンチマークを超えて拡張されています。
トレーニング データを超えて一般化するモデルの能力を評価するために、2 つの追加ゲームを導入します。
最初のゲームである LEGO Connect Language (LCL) は、空間ロジックを理解し、組み立て手順に従うモデルの能力をテストします。
2 番目のゲームである形状のゲームでは、ゼロの行列内で 1 で表される形状を識別するようモデルに課題を与え、モデルの空間推論スキルをさらにテストします。
この「見せて、語らない」戦略では、単にモデルをクエリするのではなく、ゲームを使用します。
私たちの結果は、GPT-3.5 と GPT-4 が標準ベンチマークで習熟しているにもかかわらず、事前トレーニングなしで完全に観察可能なゲームをプレイして推論する能力が平凡であることを示しています。
どちらのモデルも三目並べやコネクト フォーで負ける動きを予測できず、バトルシップを正しくプレイできません。
GPT-4 は形状のゲームではある程度の成功を示していますが、どちらのモデルも LCL ゲームで提示される組み立てタスクでは失敗します。
これらの結果は、GPT モデルが会話の熟練度や基本的なルールの理解をエミュレートできる一方で、戦略的なゲームプレイや空間推論タスクにおけるパフォーマンスが非常に限定されていることを示唆しています。
重要なのは、これにより、ゲームプレイ ベンチマーク スイート ChildPlay (https://github.com/child-play-neurips/child-play) で強調されている現在の LLM ベンチマークの盲点が明らかになるということです。
私たちの発見は、GPT-3.5およびGPT-4とほぼ同じサイズのLLMの創発的な知能と推論能力の主張についての警告を提供します。

要約(オリジナル)

We explore the hypothesis that LLMs, such as GPT-3.5 and GPT-4, possess broader cognitive functions, particularly in non-linguistic domains. Our approach extends beyond standard linguistic benchmarks by incorporating games like Tic-Tac-Toe, Connect Four, and Battleship, encoded via ASCII, to assess strategic thinking and decision-making. To evaluate the models’ ability to generalize beyond their training data, we introduce two additional games. The first game, LEGO Connect Language (LCL), tests the models’ capacity to understand spatial logic and follow assembly instructions. The second game, the game of shapes, challenges the models to identify shapes represented by 1s within a matrix of zeros, further testing their spatial reasoning skills. This ‘show, don’t tell’ strategy uses games instead of simply querying the models. Our results show that despite their proficiency on standard benchmarks, GPT-3.5 and GPT-4’s abilities to play and reason about fully observable games without pre-training is mediocre. Both models fail to anticipate losing moves in Tic-Tac-Toe and Connect Four, and they are unable to play Battleship correctly. While GPT-4 shows some success in the game of shapes, both models fail at the assembly tasks presented in the LCL game. These results suggest that while GPT models can emulate conversational proficiency and basic rule comprehension, their performance in strategic gameplay and spatial reasoning tasks is very limited. Importantly, this reveals a blind spot in current LLM benchmarks that we highlight with our gameplay benchmark suite ChildPlay (https://github.com/child-play-neurips/child-play). Our findings provide a cautionary tale about claims of emergent intelligence and reasoning capabilities of LLMs that are roughly the size of GPT-3.5 and GPT-4.

arxiv情報

著者 Gonçalo Hora de Carvalho,Robert Pollice,Oscar Knap
発行日 2024-07-17 13:47:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク