LFED: A Literary Fiction Evaluation Dataset for Large Language Models

要約

大規模言語モデル (LLM) の急速な進化により、さまざまな側面にわたってそのパフォーマンスを包括的に評価する必要性が生じています。
この論文では、長編小説の理解と推論に関するLLMの能力を評価することを目的とした文学小説評価データセットであるLFEDを提案します。
私たちは、中国語で書かれた、または中国語に翻訳された 95 冊の文学小説を収集しており、数世紀にわたる幅広いトピックをカバーしています。
1,304 の質問の作成をガイドするために、8 つの質問カテゴリで質問分類を定義します。
さらに、文学小説の特定の属性 (小説のタイプ、登場人物数、出版年など) が評価における LLM のパフォーマンスにどのような影響を与えるかを確認するために、詳細な分析を実施します。
さまざまな最先端の LLM を使用した一連の実験を通じて、これらのモデルが文学小説に関連する質問に効果的に対処する上でかなりの課題に直面しており、ゼロショット設定では ChatGPT が 57.08% に達するだけであることが実証されました。
データセットは https://github.com/tjunlp-lab/LFED.git で公開されます。

要約(オリジナル)

The rapid evolution of large language models (LLMs) has ushered in the need for comprehensive assessments of their performance across various dimensions. In this paper, we propose LFED, a Literary Fiction Evaluation Dataset, which aims to evaluate the capability of LLMs on the long fiction comprehension and reasoning. We collect 95 literary fictions that are either originally written in Chinese or translated into Chinese, covering a wide range of topics across several centuries. We define a question taxonomy with 8 question categories to guide the creation of 1,304 questions. Additionally, we conduct an in-depth analysis to ascertain how specific attributes of literary fictions (e.g., novel types, character numbers, the year of publication) impact LLM performance in evaluations. Through a series of experiments with various state-of-the-art LLMs, we demonstrate that these models face considerable challenges in effectively addressing questions related to literary fictions, with ChatGPT reaching only 57.08% under the zero-shot setting. The dataset will be publicly available at https://github.com/tjunlp-lab/LFED.git

arxiv情報

著者 Linhao Yu,Qun Liu,Deyi Xiong
発行日 2024-05-16 15:02:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.PF パーマリンク