要約
大規模言語モデル (LLM) は、広範なトレーニング データから豊富な事実知識を取得することで、さまざまな自然言語処理タスクにわたって優れた機能を実証してきましたが、複雑な方法でこの知識を合成し、論理的に推論する能力はまだ解明されていません。
この研究では、一般領域および生物医学知識グラフに対して自動的に生成された複雑な推論質問の新しいベンチマークを通じて、最先端の LLM の複雑な論理的推論能力の体系的な評価を示します。
多様なコンテキスト内学習手法を採用した私たちの広範な実験により、LLM は世界の一般的な知識に対する推論には優れているものの、専門的な領域固有の知識に関しては大きな課題に直面していることが明らかになりました。
明示的な思考連鎖のデモンストレーションでプロンプトを表示すると、多様な論理演算を伴う複雑な論理推論タスクにおける LLM のパフォーマンスが大幅に向上することがわかりました。
興味深いことに、私たちの管理された評価では、LLM が集合和集合演算では熟練を示しているものの、論理的推論の重要な構成要素である集合交差ではかなり苦労しているという非対称性が明らかになりました。
さらなる研究を促進するために、評価ベンチマークとコードを一般公開します。
要約(オリジナル)
While large language models (LLMs) have demonstrated impressive capabilities across various natural language processing tasks by acquiring rich factual knowledge from their broad training data, their ability to synthesize and logically reason with this knowledge in complex ways remains underexplored. In this work, we present a systematic evaluation of state-of-the-art LLMs’ complex logical reasoning abilities through a novel benchmark of automatically generated complex reasoning questions over general domain and biomedical knowledge graphs. Our extensive experiments, employing diverse in-context learning techniques, reveal that LLMs excel at reasoning over general world knowledge but face significant challenges with specialized domain-specific knowledge. We find that prompting with explicit Chain-of-Thought demonstrations can substantially improve LLM performance on complex logical reasoning tasks with diverse logical operations. Interestingly, our controlled evaluations uncover an asymmetry where LLMs display proficiency at set union operations, but struggle considerably with set intersections – a key building block of logical reasoning. To foster further work, we will publicly release our evaluation benchmark and code.
arxiv情報
著者 | Tianshi Zheng,Jiaxin Bai,Yicheng Wang,Tianqing Fang,Yue Guo,Yauwai Yim,Yangqiu Song |
発行日 | 2024-07-30 05:40:32+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google