Large Language Models are In-Context Semantic Reasoners rather than Symbolic Reasoners

要約

大規模言語モデル (LLM) の出現した少数ショット推論機能は、近年、自然言語と機械学習のコミュニティを興奮させてきました。
数多くの成功したアプリケーションにもかかわらず、そのようなコンテキスト内機能の基礎となるメカニズムは依然として不明のままです。
この研究では、学習された言語トークンの \textit{semantics} が推論プロセス中に最も重労働を行うという仮説を立てています。
人間の記号的推論プロセスとは異なり、LLM の意味表現はトークン間に強いつながりを生み出し、表面的な論理チェーンを構成します。
仮説を検証するために、言語推論プロセスから意味論を切り離し、3 種類の推論能力、つまり演繹、帰納、アブダクションを評価します。
私たちの調査結果は、セマンティクスが LLM の文脈内推論において重要な役割を果たしているということを明らかにしています。LLM は、セマンティクスが常識と一致しているが、文脈内の新しい知識を活用して記号的推論タスクや反常識的推論タスクを解決するのに苦労している場合に、パフォーマンスが大幅に向上します。
この驚くべき観察は、現代のLLMが人間の知性と同様に帰納的、演繹的、およびアブダクティブな推論能力を習得しているかどうかに疑問を投げかけており、ブラックボックスLLM内に存在する魔法を明らかにする研究の動機となっている。
全体として、私たちの分析は、言語モデルの推論能力の開発と評価における意味論の役割について新しい視点を提供します。
コードは {\url{https://github.com/XiaojuanTang/ICSR}} で入手できます。

要約(オリジナル)

The emergent few-shot reasoning capabilities of Large Language Models (LLMs) have excited the natural language and machine learning community over recent years. Despite of numerous successful applications, the underlying mechanism of such in-context capabilities still remains unclear. In this work, we hypothesize that the learned \textit{semantics} of language tokens do the most heavy lifting during the reasoning process. Different from human’s symbolic reasoning process, the semantic representations of LLMs could create strong connections among tokens, thus composing a superficial logical chain. To test our hypothesis, we decouple semantics from the language reasoning process and evaluate three kinds of reasoning abilities, i.e., deduction, induction and abduction. Our findings reveal that semantics play a vital role in LLMs’ in-context reasoning — LLMs perform significantly better when semantics are consistent with commonsense but struggle to solve symbolic or counter-commonsense reasoning tasks by leveraging in-context new knowledge. The surprising observations question whether modern LLMs have mastered the inductive, deductive and abductive reasoning abilities as in human intelligence, and motivate research on unveiling the magic existing within the black-box LLMs. On the whole, our analysis provides a novel perspective on the role of semantics in developing and evaluating language models’ reasoning abilities. Code is available at {\url{https://github.com/XiaojuanTang/ICSR}}.

arxiv情報

著者 Xiaojuan Tang,Zilong Zheng,Jiaqi Li,Fanxu Meng,Song-Chun Zhu,Yitao Liang,Muhan Zhang
発行日 2023-06-08 16:38:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク