PROXYQA: An Alternative Framework for Evaluating Long-Form Text Generation with Large Language Models

要約

大規模言語モデル (LLM) は、長い形式の文脈理解タスクにおいて目覚ましい成功を収めています。
ただし、レポートや記事などの長いコンテンツを生成する機能については、まだ十分に研究されていません。
現在のベンチマークでは、有益で包括的なコンテンツを作成する LLM の能力が適切に評価されていないため、より厳密な評価アプローチが必要です。
この研究では、長文テキストの生成を評価するためのフレームワークである \textsc{ProxyQA} を紹介します。このフレームワークは、さまざまなドメインにまたがる人間が徹底的に精選した \textit{メタ質問} で構成されています。
各メタ質問には、注釈付きの回答を含む対応する \textit{proxy-questions} が含まれています。
LLM は、これらのメタ質問に応じて広範なコンテンツを生成するように求められます。
\textsc{ProxyQA} は、エバリュエーターを利用し、生成されたコンテンツをバックグラウンド コンテキストとして組み込むことで、\textit{proxy-questions} に答える際のエバリュエーターのパフォーマンスに基づいて、生成されたコンテンツの品質を評価します。
私たちは複数の LLM を調査し、高品質の評価ツールとしての \textsc{ProxyQA} の要求の厳しい性質を強調します。
人間による評価は、\textit{proxy-questions} を介した評価が、自己一貫性が高く、人間の基準と相関関係のある検証方法であることを示しています。
データセットとリーダーボードは \url{https://github.com/Namco0816/ProxyQA} で入手できます。

要約(オリジナル)

Large Language Models (LLMs) have exhibited remarkable success in long-form context comprehension tasks. However, their capacity to generate long contents, such as reports and articles, remains insufficiently explored. Current benchmarks do not adequately assess LLMs’ ability to produce informative and comprehensive content, necessitating a more rigorous evaluation approach. In this study, we introduce \textsc{ProxyQA}, a framework for evaluating long-form text generation, comprising in-depth human-curated \textit{meta-questions} spanning various domains. Each meta-question contains corresponding \textit{proxy-questions} with annotated answers. LLMs are prompted to generate extensive content in response to these meta-questions. Utilizing an evaluator and incorporating generated content as background context, \textsc{ProxyQA} evaluates the quality of generated content based on the evaluator’s performance in answering the \textit{proxy-questions}. We examine multiple LLMs, emphasizing \textsc{ProxyQA}’s demanding nature as a high-quality assessment tool. Human evaluation demonstrates that evaluating through \textit{proxy-questions} is a highly self-consistent and human-criteria-correlated validation method. The dataset and leaderboard will be available at \url{https://github.com/Namco0816/ProxyQA}.

arxiv情報

著者 Haochen Tan,Zhijiang Guo,Zhan Shi,Lu Xu,Zhili Liu,Yunlong Feng,Xiaoguang Li,Yasheng Wang,Lifeng Shang,Qun Liu,Linqi Song
発行日 2024-02-13 13:24:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク