LLMs for Relational Reasoning: How Far are We?

要約

大規模言語モデル (LLM) は、広範な下流タスクで最先端のパフォーマンスを達成することにより、多くの分野 (自然言語処理、ソフトウェア エンジニアリングなど) に革命をもたらしました。
堅牢で汎用的な人工知能の実現を目指して、LLM の推論能力の調査への関心が高まっています。
これまでの研究で採用されたテキスト推論および数値推論のベンチマークはかなり浅くて単純なものでしたが、これらのベンチマークで肯定的な結果が得られただけでは、LLM が強力な推論能力を備えていると結論付けるのは困難です。
最近の取り組みにより、LLM は強化学習ベンチマークでのパフォーマンスを評価することで、常識的な計画を必要とする逐次的な意思決定問題を解決するのが苦手であることが実証されました。
この研究では、帰納的論理プログラミング (ILP) ベンチマークに基づいて、いくつかの最先端の LLM の推論能力の詳細な評価を実施します。ILP ベンチマークは、論理プログラム帰納法を評価するための代表的かつ挑戦的な測定として広く認識されています。
/合成システムでは、独立した同一分布 (IID) および分布外 (OOD) のテスト サンプルで堅牢な推論を達成するために、厳密な因果関係ロジックを導入する必要があるためです。
私たちの評価は、モデルサイズがはるかに小さいニューラルプログラム誘導システムと比較して、最先端のLLMは、自然言語プロンプトまたは真実のいずれかを使用してはるかに低いパフォーマンスと一般化を達成するため、推論能力の点ではるかに劣っていることを示しています。
-value マトリックスのプロンプト。

要約(オリジナル)

Large language models (LLMs) have revolutionized many areas (e.g. natural language processing, software engineering, etc.) by achieving state-of-the-art performance on extensive downstream tasks. Aiming to achieve robust and general artificial intelligence, there has been a surge of interest in investigating the reasoning ability of the LLMs. Whereas the textual and numerical reasoning benchmarks adopted by previous works are rather shallow and simple, it is hard to conclude that the LLMs possess strong reasoning ability by merely achieving positive results on these benchmarks. Recent efforts have demonstrated that the LLMs are poor at solving sequential decision-making problems that require common-sense planning by evaluating their performance on the reinforcement learning benchmarks. In this work, we conduct an in-depth assessment of several state-of-the-art LLMs’ reasoning ability based on the inductive logic programming (ILP) benchmark, which is broadly recognized as a representative and challenging measurement for evaluating logic program induction/synthesis systems as it requires inducing strict cause-effect logic to achieve robust deduction on independent and identically distributed (IID) and out-of-distribution (OOD) test samples. Our evaluations illustrate that compared with the neural program induction systems which are much smaller in model size, the state-of-the-art LLMs are much poorer in terms of reasoning ability by achieving much lower performance and generalization using either natural language prompting or truth-value matrix prompting.

arxiv情報

著者 Zhiming Li,Yushi Cao,Xiufeng Xu,Junzhe Jiang,Xu Liu,Yon Shin Teo,Shang-wei Lin,Yang Liu
発行日 2024-01-17 08:22:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク