CriticEval: Evaluating Large Language Model as Critic

要約

批判能力、つまり、応答内の欠陥を特定して修正する大規模言語モデル (LLM) の能力は、自己改善と拡張可能な監視におけるアプリケーションにとって重要です。
LLM の批評能力を評価するために多くの研究が提案されていますが、その包括性と信頼性にはまだ限界があります。
この問題を克服するために、LLM の批評能力を包括的かつ確実に評価するように設計された新しいベンチマークである CriticEval を紹介します。
具体的には、包括性を確保するために、CriticEval は 9 つの多様なタスク シナリオにわたって 4 つの側面から批評能力を評価します。
スカラー値の批評とテキストの批評の両方を評価し、さまざまな質の回答を対象とします。
信頼性を確保するために、多数の批評には参考として注釈が付けられており、GPT-4 がテキスト批評を確実に評価できるようにしています。
オープンソースおよびクローズドソース LLM の広範な評価により、まず CriticEval での評価の信頼性が検証されます。
次に、実験結果は、オープンソース LLM の有望な可能性、批評データセットの有効性、および批評能力と、タスクの種類、応答の質、批評の次元などのいくつかの重要な要素との間のいくつかの興味深い関係を示しています。
CriticEval のデータセットと評価ツールキットは一般公開されます。

要約(オリジナル)

Critique ability, i.e., the capability of Large Language Models (LLMs) to identify and rectify flaws in responses, is crucial for their applications in self-improvement and scalable oversight. While numerous studies have been proposed to evaluate critique ability of LLMs, their comprehensiveness and reliability are still limited. To overcome this problem, we introduce CriticEval, a novel benchmark designed to comprehensively and reliably evaluate critique ability of LLMs. Specifically, to ensure the comprehensiveness, CriticEval evaluates critique ability from four dimensions across nine diverse task scenarios. It evaluates both scalar-valued and textual critiques, targeting responses of varying quality. To ensure the reliability, a large number of critiques are annotated to serve as references, enabling GPT-4 to evaluate textual critiques reliably. Extensive evaluations of open-source and closed-source LLMs first validate the reliability of evaluation in CriticEval. Then, experimental results demonstrate the promising potential of open-source LLMs, the effectiveness of critique datasets and several intriguing relationships between the critique ability and some critical factors, including task types, response qualities and critique dimensions. Datasets and evaluation toolkit for CriticEval will be publicly released.

arxiv情報

著者 Tian Lan,Wenwei Zhang,Chen Xu,Heyan Huang,Dahua Lin,Kai Chen,Xian-ling Mao
発行日 2024-09-11 15:47:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク