Overview of the NTCIR-18 Automatic Evaluation of LLMs (AEOLLM) Task

要約

この論文では、LLMS(AEOLLM)タスクのNTCIR-18自動評価の概要を説明します。
大規模な言語モデル(LLM)が学界と産業の両方で人気が高まっているため、LLMSの能力を効果的に評価する方法はますます重要であるが、まだ挑戦的な問題になります。
既存の方法は、2つのタイプに分けることができます。手動評価、高価な手動評価と自動評価は、タスク形式(大半は複数選択の質問に属する)や評価基準(参照ベースのメトリックで占める)などの多くの制限に直面しています。
自動評価の革新を進めるために、生成タスクに焦点を当て、参照のない方法を奨励するAEOLLMタスクを提案します。
その上、ダイアログ生成、テキスト拡張、要約生成、非ファクトルの質問が異なる方法を包括的にテストするなど、さまざまなサブタスクを設定します。
今年、私たちは合計4チームから48回のランを受け取りました。
このペーパーでは、タスクの背景、データセット、評価測定、評価結果についてそれぞれ説明します。

要約(オリジナル)

In this paper, we provide an overview of the NTCIR-18 Automatic Evaluation of LLMs (AEOLLM) task. As large language models (LLMs) grow popular in both academia and industry, how to effectively evaluate the capacity of LLMs becomes an increasingly critical but still challenging issue. Existing methods can be divided into two types: manual evaluation, which is expensive, and automatic evaluation, which faces many limitations including task format (the majority belong to multiple-choice questions) and evaluation criteria (occupied by reference-based metrics). To advance the innovation of automatic evaluation, we propose the AEOLLM task which focuses on generative tasks and encourages reference-free methods. Besides, we set up diverse subtasks such as dialogue generation, text expansion, summary generation and non-factoid question answering to comprehensively test different methods. This year, we received 48 runs from 4 teams in total. This paper will describe the background of the task, the data set, the evaluation measures and the evaluation results, respectively.

arxiv情報

著者 Junjie Chen,Haitao Li,Zhumin Chu,Yiqun Liu,Qingyao Ai
発行日 2025-03-17 10:42:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク