Do Language Models Understand the Cognitive Tasks Given to Them? Investigations with the N-Back Paradigm


最近の研究では、GPT 3.5 の 2 バックおよび 3 バック タスクにおけるパフォーマンスの低下は、人間と同様の作業記憶容量の限界を反映していると主張しています (Gong et al., 2024)。
これらのタスクに関するさまざまなパフォーマンス レベルの一連のオープンソース言語モデルを分析することにより、パフォーマンスの低下がタスクの理解とタスク セットの維持における限界を反映していることを示します。
さらに、モデルの注意を分析する前に、タスクの徐々に難しいバージョン (最大 10 バック) で最もパフォーマンスの高いモデルに挑戦し、代替プロンプト戦略を実験します。


Cognitive tasks originally developed for humans are now increasingly used to study language models. While applying these tasks is often straightforward, interpreting their results can be challenging. In particular, when a model underperforms, it is often unclear whether this results from a limitation in the cognitive ability being tested or a failure to understand the task itself. A recent study argues that GPT 3.5’s declining performance on 2-back and 3-back tasks reflects a working memory capacity limit similar to humans (Gong et al., 2024). By analyzing a range of open-source language models of varying performance levels on these tasks, we show that the poor performance instead reflects a limitation in task comprehension and task set maintenance. In addition, we challenge the best-performing model with progressively harder versions of the task (up to 10-back) and experiment with alternative prompting strategies, before analyzing model attentions. Our larger aim is to contribute to the ongoing conversation around refining methodologies for the cognitive evaluation of language models.


著者 Xiaoyang Hu,Richard L. Lewis
発行日 2024-12-26 16:31:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.AI, cs.CL パーマリンク