A Sentence is Worth a Thousand Pictures: Can Large Language Models Understand Hum4n L4ngu4ge and the W0rld behind W0rds?

要約

最新の人工知能アプリケーションは、次の単語の予測に依存する言語関連のタスクに大きな可能性を示しています。
現世代の大規模言語モデル (LLM) は、人間のような言語能力に関する主張と関連付けられており、その応用は汎用人工知能への一歩として、また人間の認知基盤、さらには神経基盤の理解における大きな進歩として歓迎されています。
言語。
これらの主張を評価するために、まず、対象となる認知システムと理論的な機構ツールの理論的に有益な表現としての LLM の寄与を分析します。
次に、より高いレベルの処理からのトップダウンのフィードバックを通じて、モデルが全体像を見る能力を評価します。これには、以前の期待と過去の世界の経験に基づくことが必要です。
モデルには根拠のある認知が欠けているため、これらの機能を利用できず、代わりに表現された単語と単語ベクトルの間の固定された関連付けのみに依存していると仮説を立てます。
これを評価するために、私たちは新しい「leet タスク」(l33t t4sk) を設計して実行しました。このタスクでは、文字が体系的に数字に置き換えられている文を解読する必要があります。
この結果は、人間がこのタスクにおいて優れているのに対し、モデルは苦戦していることを示唆しており、私たちの仮説が裏付けられています。
私たちは、これらのモデルの開発の現状にまだ欠けている主要な機能を特定することによって結果を解釈します。これらの機能には、システムの拡張の拡大を超えるソリューションが必要です。

要約(オリジナル)

Modern Artificial Intelligence applications show great potential for language-related tasks that rely on next-word prediction. The current generation of Large Language Models (LLMs) have been linked to claims about human-like linguistic performance and their applications are hailed both as a step towards artificial general intelligence and as a major advance in understanding the cognitive, and even neural basis of human language. To assess these claims, first we analyze the contribution of LLMs as theoretically informative representations of a target cognitive system vs. atheoretical mechanistic tools. Second, we evaluate the models’ ability to see the bigger picture, through top-down feedback from higher levels of processing, which requires grounding in previous expectations and past world experience. We hypothesize that since models lack grounded cognition, they cannot take advantage of these features and instead solely rely on fixed associations between represented words and word vectors. To assess this, we designed and ran a novel ‘leet task’ (l33t t4sk), which requires decoding sentences in which letters are systematically replaced by numbers. The results suggest that humans excel in this task whereas models struggle, confirming our hypothesis. We interpret the results by identifying the key abilities that are still missing from the current state of development of these models, which require solutions that go beyond increased system scaling.

arxiv情報

著者 Evelina Leivada,Gary Marcus,Fritz Günther,Elliot Murphy
発行日 2024-09-04 09:27:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク