Evaluating the Deductive Competence of Large Language Models

要約

非常に流暢な大規模言語モデル (LLM) の開発により、その推論能力と問題解決能力を評価することへの関心が高まっています。
私たちは、いくつかの LLM が認知科学文献からの古典的なタイプの演繹的推論問題を解決できるかどうかを調査します。
テストされた LLM は、従来の形式ではこれらの問題を解決する能力が限られています。
プレゼンテーション形式とコンテンツの変更によってモデルのパフォーマンスが向上するかどうかを調査するために、追跡実験を実行しました。
条件によってパフォーマンスに違いがあることがわかります。
ただし、全体的なパフォーマンスは向上しません。
さらに、人間のパフォーマンスとは異なる予期せぬ方法で、パフォーマンスがプレゼンテーションの形式やコンテンツと相互作用することがわかりました。
全体として、私たちの結果は、LLM には人間の推論パフォーマンスから部分的にのみ予測される独自の推論バイアスがあることを示唆しています。

要約(オリジナル)

The development of highly fluent large language models (LLMs) has prompted increased interest in assessing their reasoning and problem-solving capabilities. We investigate whether several LLMs can solve a classic type of deductive reasoning problem from the cognitive science literature. The tested LLMs have limited abilities to solve these problems in their conventional form. We performed follow up experiments to investigate if changes to the presentation format and content improve model performance. We do find performance differences between conditions; however, they do not improve overall performance. Moreover, we find that performance interacts with presentation format and content in unexpected ways that differ from human performance. Overall, our results suggest that LLMs have unique reasoning biases that are only partially predicted from human reasoning performance.

arxiv情報

著者 S. M. Seals,Valerie L. Shalin
発行日 2023-09-11 13:47:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク