要約
最近、GPT-4 や急成長中のコミュニティ モデルなどの注目すべきモデルを含む大規模言語モデル (LLM) は、重要な一般言語理解能力を実証しています。
しかし、自然言語理解の重要な側面である、これらの LLM の論理的推論能力を評価する試みはほとんど行われていません。
この分野でのさらなる調査を促進するために、3 つの異なるタイプのタスクにわたる 12 のデータセットで構成される、細心の注意を払って組み立てられた一般論理推論評価ベンチマークである GLoRE を紹介します。
私たちの実験結果は、人間による教師付き微調整のパフォーマンスと比較して、オープン LLM モデルの論理的推論機能にはさらなる改善が必要であることを示しています。
ChatGPT と GPT-4 は論理的推論の強力な能力を示しており、GPT-4 は ChatGPT を大幅に上回っています。
ChatGPT の精度を向上させるための自己一貫性プローブ手法と、オープン LLM のパフォーマンスを向上させるための微調整された手法を提案します。
今後の研究を促進するために、データセットと評価プログラムを公開します。
要約(オリジナル)
Recently, large language models (LLMs), including notable models such as GPT-4 and burgeoning community models, have showcased significant general language understanding abilities. However, there has been a scarcity of attempts to assess the logical reasoning capacities of these LLMs, an essential facet of natural language understanding. To encourage further investigation in this area, we introduce GLoRE, a meticulously assembled General Logical Reasoning Evaluation benchmark comprised of 12 datasets that span three different types of tasks. Our experimental results show that compared to the performance of human and supervised fine-tuning, the logical reasoning capabilities of open LLM models necessitate additional improvement; ChatGPT and GPT-4 show a strong capability of logical reasoning, with GPT-4 surpassing ChatGPT by a large margin. We propose a self-consistency probing method to enhance the accuracy of ChatGPT and a fine-tuned method to boost the performance of an open LLM. We release the datasets and evaluation programs to facilitate future research.
arxiv情報
著者 | Hanmeng liu,Zhiyang Teng,Ruoxi Ning,Jian Liu,Qiji Zhou,Yue Zhang |
発行日 | 2023-10-13 13:52:15+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google