要約
ChatGPT は、自然言語理解において目覚ましい進歩を遂げた強力な大規模言語モデル (LLM) です。
それにもかかわらず、モデルのパフォーマンスと制限はまだ広範囲に評価する必要があります。
ChatGPT はウィキペディアなどのリソースをカバーし、自然言語による質問応答をサポートしているため、従来の知識ベースの質問応答 (KBQA) モデルを置き換える可能性があるとして注目を集めています。
複雑な質問への回答は、意味解析と推論におけるモデルの能力を総合的にテストする KBQA のチャレンジ タスクです。
独自の知識を使用して質問応答システム (QAS) としての ChatGPT のパフォーマンスを評価するために、複雑な質問に回答する能力を評価するフレームワークを提示します。
私たちのアプローチでは、複雑な問題の潜在的な特徴を分類し、各テスト問題を複数のラベルで記述して組み合わせ論的推論を識別します。
Ribeiro らによって提案された CheckList のブラックボックス テスト仕様に従って、複雑な質問に答える推論における ChatGPT の機能と信頼性を測定する評価方法を開発します。
提案されたフレームワークを使用して、合計約 190,000 のテスト ケースで、6 つの英語データセットと 2 つの多言語データセットを含む 8 つの実際の KB ベースの CQA データセットでの質問応答における ChatGPT のパフォーマンスを評価します。
ChatGPT、GPT-3.5、GPT-3、および FLAN-T5 の評価結果を比較して、LLM の一般的な長期的な問題を特定します。
データセットとコードは、https://github.com/tan92hl/Complex-Question-Answering-Evaluation-of-ChatGPT で入手できます。
要約(オリジナル)
ChatGPT is a powerful large language model (LLM) that has made remarkable progress in natural language understanding. Nevertheless, the performance and limitations of the model still need to be extensively evaluated. As ChatGPT covers resources such as Wikipedia and supports natural language question answering, it has garnered attention as a potential replacement for traditional knowledge based question answering (KBQA) models. Complex question answering is a challenge task of KBQA, which comprehensively tests the ability of models in semantic parsing and reasoning. To assess the performance of ChatGPT as a question answering system (QAS) using its own knowledge, we present a framework that evaluates its ability to answer complex questions. Our approach involves categorizing the potential features of complex questions and describing each test question with multiple labels to identify combinatorial reasoning. Following the black-box testing specifications of CheckList proposed by Ribeiro et.al, we develop an evaluation method to measure the functionality and reliability of ChatGPT in reasoning for answering complex questions. We use the proposed framework to evaluate the performance of ChatGPT in question answering on 8 real-world KB-based CQA datasets, including 6 English and 2 multilingual datasets, with a total of approximately 190,000 test cases. We compare the evaluation results of ChatGPT, GPT-3.5, GPT-3, and FLAN-T5 to identify common long-term problems in LLMs. The dataset and code are available at https://github.com/tan92hl/Complex-Question-Answering-Evaluation-of-ChatGPT.
arxiv情報
著者 | Yiming Tan,Dehai Min,Yu Li,Wenbo Li,Nan Hu,Yongrui Chen,Guilin Qi |
発行日 | 2023-03-14 15:46:28+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google