Are LLMs classical or nonmonotonic reasoners? Lessons from generics

要約

LLM の推論に関する最近の研究では、優れたパフォーマンスと、機械生成または人間のフィードバックへの柔軟な適応の証拠が提供されています。
現実世界をナビゲートするための人間の認知にとって重要な非単調推論は、依然として挑戦的な課題ですが、十分に研究されていません。
この研究では、「鳥は飛ぶ」などの一般論と「ペンギンは飛ばない」などの例外を特徴とする 1 つの抽象的推論タスクと 1 つの常識的推論タスクで、7 つの最先端の LLM の非単調推論機能を研究します (図を参照)
1)。
LLM は人間の非単調推論能力に応じた推論パターンを示しますが、裏付けとなる例 (「フクロウは飛ぶ」) や無関係な情報 (「ライオンにはたてがみがある」) を追加すると、ジェネリックスの真理条件について安定した信念を維持できません。
私たちの調査結果は、人間の推論行動を LLM に起因させることや、一般的な能力を評価する際の落とし穴を浮き彫りにしていますが、一貫した推論は依然としてとらえどころがありません。

要約(オリジナル)

Recent scholarship on reasoning in LLMs has supplied evidence of impressive performance and flexible adaptation to machine generated or human feedback. Nonmonotonic reasoning, crucial to human cognition for navigating the real world, remains a challenging, yet understudied task. In this work, we study nonmonotonic reasoning capabilities of seven state-of-the-art LLMs in one abstract and one commonsense reasoning task featuring generics, such as ‘Birds fly’, and exceptions, ‘Penguins don’t fly’ (see Fig. 1). While LLMs exhibit reasoning patterns in accordance with human nonmonotonic reasoning abilities, they fail to maintain stable beliefs on truth conditions of generics at the addition of supporting examples (‘Owls fly’) or unrelated information (‘Lions have manes’). Our findings highlight pitfalls in attributing human reasoning behaviours to LLMs, as well as assessing general capabilities, while consistent reasoning remains elusive.

arxiv情報

著者 Alina Leidinger,Robert van Rooij,Ekaterina Shutova
発行日 2024-06-12 11:18:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク