要約
私たちは、外部知識の選択と結合、非順次推論タスクの処理、より多くのホップを持つデータ サンプルへの一般化という 3 つの側面から、大規模言語モデルのマルチホップ推論能力をテストする一連の実験を実行します。
思考連鎖プロンプト (およびそのバリエーション) を使用して、4 つの推論ベンチマークで GPT-3.5 モデルをテストします。
私たちの結果は、大規模な言語モデルがさまざまな推論タスクで驚くべきパフォーマンスを達成したにもかかわらず、モデルが依然として人間との大きなギャップを示す深刻な欠点を抱えていることを明らかにしました。
要約(オリジナル)
We carry out a series of experiments to test large language models’ multi-hop reasoning ability from three aspects: selecting and combining external knowledge, dealing with non-sequential reasoning tasks and generalising to data samples with larger numbers of hops. We test the GPT-3.5 model on four reasoning benchmarks with Chain-of-Thought prompting (and its variations). Our results reveal that despite the amazing performance achieved by large language models on various reasoning tasks, models still suffer from severe drawbacks which shows a large gap with humans.
arxiv情報
| 著者 | Haotong Zhang |
| 発行日 | 2024-12-11 11:53:26+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google