Logical forms complement probability in understanding language model (and human) performance

要約

自然言語での計画のために大規模な言語モデル(LLM)を使用することに関心が高まっているため、その行動を理解することは重要な研究問題になります。
この作業は、自然言語で論理的推論を実行するLLMSの能力の体系的な調査を実施しています。
命題およびモーダルロジックにおける仮説的および分離的な三段論法の制御されたデータセットを導入し、LLMパフォーマンスを理解するためのテストベッドとして使用します。
私たちの結果は、LLMの行動を予測する際の新しい洞察につながります。入力の確率に加えて(Gonen et al。、2023; McCoy et al。、2024)、論理形式は直交因子と見なされるべきです。
さらに、LLMと人間の行動結果を比較することにより、人間とLLMの論理的推論パフォーマンスの類似点と相違点を示します。

要約(オリジナル)

With the increasing interest in using large language models (LLMs) for planning in natural language, understanding their behaviors becomes an important research question. This work conducts a systematic investigation of LLMs’ ability to perform logical reasoning in natural language. We introduce a controlled dataset of hypothetical and disjunctive syllogisms in propositional and modal logic and use it as the testbed for understanding LLM performance. Our results lead to novel insights in predicting LLM behaviors: in addition to the probability of input (Gonen et al., 2023; McCoy et al., 2024), logical forms should be considered as orthogonal factors. In addition, we show similarities and differences between the logical reasoning performances of humans and LLMs by comparing LLM and human behavioral results.

arxiv情報

著者 Yixuan Wang,Freda Shi
発行日 2025-02-13 18:46:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LO パーマリンク