要約
大規模言語モデルは、文章理解から常識的推論に至るまで、多種多様な自然言語処理タスクにおいて驚異的な性能を示してきた。しかし、この成功の原因となるメカニズムは依然として不透明であり、LLMが人間のような認知能力を達成できるのか、あるいはこれらのモデルがまだ基本的に限定的なものなのかは不明である。抽象的な推論は、少数のデータから一般的なパターンを見つけて適用することからなる、認知の基本的なタスクである。このタスクについて深層ニューラルアーキテクチャを評価することで、推論に関する潜在的な限界や、広範な汎化能力について洞察することができるが、この領域は現在のところ未解明である。本稿では、抽象的な推論タスクにおいて、記憶以外の言語モデルを評価するための新しいベンチマークを紹介する。最新のLLMの広範な評価を行い、他の自然言語タスクと比較して、他のNLPタスクで性能が向上することが示されている技術を適用しても、LLMの性能が非常に限定的であることを示す。我々は、LLMの生成を因果経路に従うように誘導することが、LLMの汎化能力と推論能力の向上に役立つと主張する。
要約(オリジナル)
Large Language Models have shown tremendous performance on a large variety of natural language processing tasks, ranging from text comprehension to common sense reasoning. However, the mechanisms responsible for this success remain opaque, and it is unclear whether LLMs can achieve human-like cognitive capabilities or whether these models are still fundamentally circumscribed. Abstract reasoning is a fundamental task for cognition, consisting of finding and applying a general pattern from few data. Evaluating deep neural architectures on this task could give insight into their potential limitations regarding reasoning and their broad generalisation abilities, yet this is currently an under-explored area. In this paper, we introduce a new benchmark for evaluating language models beyond memorization on abstract reasoning tasks. We perform extensive evaluations of state-of-the-art LLMs, showing that they currently achieve very limited performance in contrast with other natural language tasks, even when applying techniques that have been shown to improve performance on other NLP tasks. We argue that guiding LLM generation to follow causal paths could help improve the generalisation and reasoning abilities of LLMs.
arxiv情報
著者 | Gaël Gendron,Qiming Bao,Michael Witbrock,Gillian Dobbie |
発行日 | 2024-01-02 22:30:00+00:00 |
arxivサイト | arxiv_id(pdf) |