A Survey on Evaluation of Large Language Models

要約

大規模言語モデル (LLM) は、さまざまなアプリケーションで前例のないパフォーマンスを発揮するため、学術界と産業界の両方で人気が高まっています。
LLM が研究と日常使用の両方で重要な役割を果たし続けるにつれて、潜在的なリスクをより深く理解するために、タスク レベルだけでなく社会レベルでも LLM の評価がますます重要になっています。
過去数年にわたり、LLM をさまざまな観点から検証するために多大な努力が払われてきました。
このペーパーでは、何を評価するか、どこを評価するか、どのように評価するかという 3 つの主要な側面に焦点を当てて、LLM のこれらの評価方法を包括的にレビューします。
まず、一般的な自然言語処理タスク、推論、医療利用、倫理、教育、自然科学および社会科学、エージェントアプリケーションなどの分野を含む、評価タスクの観点から概要を説明します。
次に、LLM のパフォーマンスを評価する際の重要な要素として機能する評価方法とベンチマークを深く掘り下げて、「どこで」と「どのように」という質問に答えます。
次に、さまざまなタスクにおける LLM の成功例と失敗例を要約します。
最後に、LLM の評価に待ち受けるいくつかの将来の課題に光を当てます。
私たちの目的は、LLM 評価の分野で研究者に貴重な洞察を提供し、それによってより熟練した LLM の開発を支援することです。
私たちの重要な点は、評価は LLM の開発をより効果的に支援するために不可欠な規律として扱われるべきであるということです。
関連するオープンソース資料は https://github.com/MLGroupJLU/LLM-eval-survey で一貫して保守されています。

要約(オリジナル)

Large language models (LLMs) are gaining increasing popularity in both academia and industry, owing to their unprecedented performance in various applications. As LLMs continue to play a vital role in both research and daily use, their evaluation becomes increasingly critical, not only at the task level, but also at the society level for better understanding of their potential risks. Over the past years, significant efforts have been made to examine LLMs from various perspectives. This paper presents a comprehensive review of these evaluation methods for LLMs, focusing on three key dimensions: what to evaluate, where to evaluate, and how to evaluate. Firstly, we provide an overview from the perspective of evaluation tasks, encompassing general natural language processing tasks, reasoning, medical usage, ethics, educations, natural and social sciences, agent applications, and other areas. Secondly, we answer the `where’ and `how’ questions by diving into the evaluation methods and benchmarks, which serve as crucial components in assessing performance of LLMs. Then, we summarize the success and failure cases of LLMs in different tasks. Finally, we shed light on several future challenges that lie ahead in LLMs evaluation. Our aim is to offer invaluable insights to researchers in the realm of LLMs evaluation, thereby aiding the development of more proficient LLMs. Our key point is that evaluation should be treated as an essential discipline to better assist the development of LLMs. We consistently maintain the related open-source materials at: https://github.com/MLGroupJLU/LLM-eval-survey.

arxiv情報

著者 Yupeng Chang,Xu Wang,Jindong Wang,Yuan Wu,Kaijie Zhu,Hao Chen,Linyi Yang,Xiaoyuan Yi,Cunxiang Wang,Yidong Wang,Wei Ye,Yue Zhang,Yi Chang,Philip S. Yu,Qiang Yang,Xing Xie
発行日 2023-07-12 15:43:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク