要約
近年の大規模言語モデルの目覚ましい性能は、それらがどの程度一般的な知能のモデルとして機能するのか、あるいは人間の認知に類似しているのか、という疑問を多くの人に抱かせている。我々は、GPT-3.5とGPT-4を、人間の帰納推論における古典的な問題である性質帰納に適用することで、この問題に取り組む。GPT-3.5とGPT-4を、人間の帰納推論の古典的な問題である性質帰納に適用する。GPT-3.5は人間の行動の多くの側面を捉えるのに苦労しているが、GPT-4ははるかに成功している:ほとんどの部分において、その性能は人間の性能と定性的に一致し、唯一の顕著な例外は、前提の非単調性の現象を捉えることができないことである。我々の研究は、性質帰納法により人間と機械知能の間の興味深い比較が可能であることを示し、この分野における将来の研究のベンチマークとなる2つの大規模データセットを提供する。
要約(オリジナル)
The impressive recent performance of large language models has led many to wonder to what extent they can serve as models of general intelligence or are similar to human cognition. We address this issue by applying GPT-3.5 and GPT-4 to a classic problem in human inductive reasoning known as property induction. Over two experiments, we elicit human judgments on a range of property induction tasks spanning multiple domains. Although GPT-3.5 struggles to capture many aspects of human behaviour, GPT-4 is much more successful: for the most part, its performance qualitatively matches that of humans, and the only notable exception is its failure to capture the phenomenon of premise non-monotonicity. Our work demonstrates that property induction allows for interesting comparisons between human and machine intelligence and provides two large datasets that can serve as benchmarks for future work in this vein.
arxiv情報
著者 | Simon J. Han,Keith Ransom,Andrew Perfors,Charles Kemp |
発行日 | 2023-08-03 15:26:55+00:00 |
arxivサイト | arxiv_id(pdf) |