要約
大規模言語モデル(LLM)の能力をどのように評価するかが、現在のLLM研究の焦点であり、ホットトピックである。これまでの研究では、LLMの反復更新のコストが非常に高いため、LLMは最新の動的な質問にうまく答えられないことが多いと指摘されている。本論文では、中国のLLMの動的な質問に対する回答能力の向上を促進するために、中国のインターネット上の最新ニュースに関連する質問と回答のペアを含む、中国の動的QAベンチマークであるCDQAを紹介する。人間とモデルを組み合わせたパイプラインによって高品質なデータを取得し、LLMの能力をよりきめ細かく観察するために、回答変更の頻度に応じてサンプルを慎重に分類する。また、CDQAで中国の主流LLMと先進LLMを評価・分析した。広範な実験と貴重な洞察は、我々の提案するCDQAが挑戦的であり、さらに研究を進める価値があることを示唆している。私たちが提供するベンチマークは、将来、LLMの中国語問題解答能力を向上させるための重要なデータ資源の一つになると信じています。
要約(オリジナル)
How to better evaluate the capabilities of Large Language Models (LLMs) is the focal point and hot topic in current LLMs research. Previous work has noted that due to the extremely high cost of iterative updates of LLMs, they are often unable to answer the latest dynamic questions well. To promote the improvement of Chinese LLMs’ ability to answer dynamic questions, in this paper, we introduce CDQA, a Chinese Dynamic QA benchmark containing question-answer pairs related to the latest news on the Chinese Internet. We obtain high-quality data through a pipeline that combines humans and models, and carefully classify the samples according to the frequency of answer changes to facilitate a more fine-grained observation of LLMs’ capabilities. We have also evaluated and analyzed mainstream and advanced Chinese LLMs on CDQA. Extensive experiments and valuable insights suggest that our proposed CDQA is challenging and worthy of more further study. We believe that the benchmark we provide will become one of the key data resources for improving LLMs’ Chinese question-answering ability in the future.
arxiv情報
著者 | Zhikun Xu,Yinghui Li,Ruixue Ding,Xinyu Wang,Boli Chen,Yong Jiang,Hai-Tao Zheng,Wenlian Lu,Pengjun Xie,Fei Huang |
発行日 | 2024-03-02 04:37:37+00:00 |
arxivサイト | arxiv_id(pdf) |