Does GPT Really Get It? A Hierarchical Scale to Quantify Human vs AI’s Understanding of Algorithms

要約

大規模言語モデル (LLM) がますます複雑な認知タスクを実行する (場合によっては優れている) ため、当然の疑問として、AI は本当に理解できるのかという疑問が生じます。
LLM における理解の研究は初期段階にあり、コミュニティには哲学、心理学、教育における十分に踏襲された研究がまだ組み込まれていません。
私たちは、特にアルゴリズムの理解に焦点を当ててこれを開始し、理解レベルの階層を提案します。
私たちはこの階層を使用して、人間の被験者 (学部生と大学院生) および大規模な言語モデル (GPT の世代) を対象とした研究を設計および実施し、興味深い類似点と相違点を明らかにしました。
私たちは、このような認知領域における AI の進歩を追跡するために、私たちの厳格な基準が役立つことを期待しています。

要約(オリジナル)

As Large Language Models (LLMs) perform (and sometimes excel at) more and more complex cognitive tasks, a natural question is whether AI really understands. The study of understanding in LLMs is in its infancy, and the community has yet to incorporate well-trodden research in philosophy, psychology, and education. We initiate this, specifically focusing on understanding algorithms, and propose a hierarchy of levels of understanding. We use the hierarchy to design and conduct a study with human subjects (undergraduate and graduate students) as well as large language models (generations of GPT), revealing interesting similarities and differences. We expect that our rigorous criteria will be useful to keep track of AI’s progress in such cognitive domains.

arxiv情報

著者 Mirabel Reid,Santosh S. Vempala
発行日 2024-08-20 17:08:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, F.1.1 パーマリンク