Do Language Models Understand the Cognitive Tasks Given to Them? Investigations with the N-Back Paradigm

要約

もともと人間のために開発された認知タスクは、現在では言語モデルの研究に使用されることが増えています。
これらのタスクの適用は多くの場合簡単ですが、その結果の解釈は困難な場合があります。
特に、モデルのパフォーマンスが低下した場合、それがテスト対象の認知能力の限界に起因するのか、それともタスク自体の理解に失敗したことに起因するのかが不明瞭になることがよくあります。
最近の研究では、GPT 3.5 の 2 バックおよび 3 バック タスクにおけるパフォーマンスの低下は、人間と同様の作業記憶容量の限界を反映していると主張しています (Gong et al., 2024)。
これらのタスクに関するさまざまなパフォーマンス レベルの一連のオープンソース言語モデルを分析することにより、パフォーマンスの低下がタスクの理解とタスク セットの維持における限界を反映していることを示します。
さらに、モデルの注意を分析する前に、タスクの徐々に難しいバージョン (最大 10 バック) で最もパフォーマンスの高いモデルに挑戦し、代替プロンプト戦略を実験します。
私たちのより大きな目的は、言語モデルの認知評価のための方法論の洗練に関する進行中の会話に貢献することです。

要約(オリジナル)

Cognitive tasks originally developed for humans are now increasingly used to study language models. While applying these tasks is often straightforward, interpreting their results can be challenging. In particular, when a model underperforms, it is often unclear whether this results from a limitation in the cognitive ability being tested or a failure to understand the task itself. A recent study argues that GPT 3.5’s declining performance on 2-back and 3-back tasks reflects a working memory capacity limit similar to humans (Gong et al., 2024). By analyzing a range of open-source language models of varying performance levels on these tasks, we show that the poor performance instead reflects a limitation in task comprehension and task set maintenance. In addition, we challenge the best-performing model with progressively harder versions of the task (up to 10-back) and experiment with alternative prompting strategies, before analyzing model attentions. Our larger aim is to contribute to the ongoing conversation around refining methodologies for the cognitive evaluation of language models.

arxiv情報

著者 Xiaoyang Hu,Richard L. Lewis
発行日 2024-12-26 16:31:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク