要約
大規模言語モデル (LLM) の機能をより適切に評価する方法は、現在の LLM 研究の焦点でありホットなトピックです。
以前の研究では、LLM の反復更新のコストが非常に高いため、最新の動的な質問にうまく答えることができないことが多いことが指摘されています。
中国の LLM の動的な質問に答える能力の向上を促進するために、このホワイト ペーパーでは、中国のインターネット上の最新ニュースに関連する質問と回答のペアを含む中国の動的 QA ベンチマークである CDQA を紹介します。
人間とモデルを組み合わせたパイプラインを通じて高品質のデータを取得し、回答変更の頻度に応じてサンプルを慎重に分類することで、LLM の能力をより詳細に観察できるようになります。
また、CDQA で中国の主流および先進的な LLM を評価および分析しました。
広範な実験と貴重な洞察は、私たちが提案する CDQA が挑戦的であり、さらに研究する価値があることを示唆しています。
私たちは、私たちが提供するベンチマークが、将来的にLLMの中国語の質問応答能力を向上させるための重要なデータリソースになると信じています。
要約(オリジナル)
How to better evaluate the capabilities of Large Language Models (LLMs) is the focal point and hot topic in current LLMs research. Previous work has noted that due to the extremely high cost of iterative updates of LLMs, they are often unable to answer the latest dynamic questions well. To promote the improvement of Chinese LLMs’ ability to answer dynamic questions, in this paper, we introduce CDQA, a Chinese Dynamic QA benchmark containing question-answer pairs related to the latest news on the Chinese Internet. We obtain high-quality data through a pipeline that combines humans and models, and carefully classify the samples according to the frequency of answer changes to facilitate a more fine-grained observation of LLMs’ capabilities. We have also evaluated and analyzed mainstream and advanced Chinese LLMs on CDQA. Extensive experiments and valuable insights suggest that our proposed CDQA is challenging and worthy of more further study. We believe that the benchmark we provide will become the key data resource for improving LLMs’ Chinese question-answering ability in the future.
arxiv情報
著者 | Zhikun Xu,Yinghui Li,Ruixue Ding,Xinyu Wang,Boli Chen,Yong Jiang,Xiaodong Deng,Jianxin Ma,Hai-Tao Zheng,Wenlian Lu,Pengjun Xie,Chang Zhou,Fei Huang |
発行日 | 2024-02-29 15:22:13+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google