Can ChatGPT Replace Traditional KBQA Models? An In-depth Analysis of GPT family LLMs’ Question Answering Performance

要約

ChatGPTは、ウィキペディアのような知識リソースをカバーし、自身の知識を使って自然言語質問応答をサポートする強力な大規模言語モデル(LLM)です。そのため、ChatGPTが従来の知識ベースの質問応答(KBQA)モデルを置き換えることができるかどうかを探ることに関心が高まっています。ChatGPTの質問応答性能を分析した研究はいくつかありますが、モデルの限界を分析するための、様々なタイプの複雑な質問に対する大規模で包括的なテストはまだ不足しています。本論文では、Ribeiroらによって提案されたCheckListのブラックボックステスト仕様に従ったフレームワークを提示します。我々は、6つの英語データセットと2つの多言語データセットを含む8つの実世界のKBベースの複雑な質問応答データセットでChatGPTとそのLLMファミリーを評価する。テストケースの総数は約190,000である。GPTファミリーのLLMに加えて、GPTファミリーと他のLLMの共通点を特定するために、よく知られているFLAN-T5も評価した。データセットとコードはhttps://github.com/tan92hl/Complex-Question-Answering-Evaluation-of-GPT-family.git。

要約(オリジナル)

ChatGPT is a powerful large language model (LLM) that covers knowledge resources such as Wikipedia and supports natural language question answering using its own knowledge. Therefore, there is growing interest in exploring whether ChatGPT can replace traditional knowledge-based question answering (KBQA) models. Although there have been some works analyzing the question answering performance of ChatGPT, there is still a lack of large-scale, comprehensive testing of various types of complex questions to analyze the limitations of the model. In this paper, we present a framework that follows the black-box testing specifications of CheckList proposed by Ribeiro et. al. We evaluate ChatGPT and its family of LLMs on eight real-world KB-based complex question answering datasets, which include six English datasets and two multilingual datasets. The total number of test cases is approximately 190,000. In addition to the GPT family of LLMs, we also evaluate the well-known FLAN-T5 to identify commonalities between the GPT family and other LLMs. The dataset and code are available at https://github.com/tan92hl/Complex-Question-Answering-Evaluation-of-GPT-family.git

arxiv情報

著者 Yiming Tan,Dehai Min,Yu Li,Wenbo Li,Nan Hu,Yongrui Chen,Guilin Qi
発行日 2023-08-04 10:25:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL パーマリンク