Can ChatGPT Replace Traditional KBQA Models? An In-depth Analysis of the Question Answering Performance of the GPT LLM Family

要約

ChatGPT は、Wikipedia などの知識リソースをカバーし、独自の知識を使用した自然言語の質問応答をサポートする強力なラージ言語モデル (LLM) です。
したがって、ChatGPT が従来の知識ベースの質問応答 (KBQA) モデルを置き換えることができるかどうかを探ることへの関心が高まっています。
ChatGPT の質問応答パフォーマンスを分析する研究はいくつかありますが、モデルの限界を分析するための、さまざまな種類の複雑な質問に対する大規模で包括的なテストはまだ不足しています。
この論文では、Ribeiro らによって提案された CheckList のブラックボックス テスト仕様に従ったフレームワークを紹介します。
アル。
ChatGPT とその LLM ファミリを、8 つの実際の KB ベースの複雑な質問応答データセット (6 つの英語データセットと 2 つの多言語データセットを含む) で評価します。
テストケースの総数は約 190,000 件です。
GPT ファミリの LLM に加えて、よく知られている FLAN-T5 も評価して、GPT ファミリと他の LLM の間の共通点を特定します。
データセットとコードは https://github.com/tan92hl/Complex-Question-Answering-Evaluation-of-GPT-family.git で入手できます。

要約(オリジナル)

ChatGPT is a powerful large language model (LLM) that covers knowledge resources such as Wikipedia and supports natural language question answering using its own knowledge. Therefore, there is growing interest in exploring whether ChatGPT can replace traditional knowledge-based question answering (KBQA) models. Although there have been some works analyzing the question answering performance of ChatGPT, there is still a lack of large-scale, comprehensive testing of various types of complex questions to analyze the limitations of the model. In this paper, we present a framework that follows the black-box testing specifications of CheckList proposed by Ribeiro et. al. We evaluate ChatGPT and its family of LLMs on eight real-world KB-based complex question answering datasets, which include six English datasets and two multilingual datasets. The total number of test cases is approximately 190,000. In addition to the GPT family of LLMs, we also evaluate the well-known FLAN-T5 to identify commonalities between the GPT family and other LLMs. The dataset and code are available at https://github.com/tan92hl/Complex-Question-Answering-Evaluation-of-GPT-family.git

arxiv情報

著者 Yiming Tan,Dehai Min,Yu Li,Wenbo Li,Nan Hu,Yongrui Chen,Guilin Qi
発行日 2023-09-20 05:25:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク