CriticBench: Evaluating Large Language Models as Critic

要約

大規模言語モデル (LLM) のスケーラブルな監視と自己改善には、批判能力が不可欠です。
最近の多くの研究では、世代間の欠陥を判断し洗練する LLM の批評能力が調査されていますが、LLM の批評能力を包括的かつ確実に測定する方法は十分に検討されていません。
この論文では、LLM の 4 つの重要な批評能力の側面 (フィードバック、比較、改良、メタフィードバック) を包括的かつ確実に評価するように設計された新しいベンチマークである \shortname を紹介します。
\shortname~には 9 つの多様なタスクが含まれており、それぞれがさまざまなレベルの品質粒度で応答を批評する LLM の能力を評価します。
オープンソースとクローズドソースの LLM に対する私たちの広範な評価により、批評能力とタスク、応答の質、モデルのスケールの間の興味深い関係が明らかになりました。
\shortname~ のデータセット、リソース、評価ツールキットは \url{https://github.com/gmftbyGMFTBY/CriticBench} で公開されます。

要約(オリジナル)

Critique ability are crucial in the scalable oversight and self-improvement of Large Language Models (LLMs). While many recent studies explore the critique ability of LLMs to judge and refine flaws in generations, how to comprehensively and reliably measure the critique abilities of LLMs is under-explored. This paper introduces \shortname, a novel benchmark designed to comprehensively and reliably evaluate four key critique ability dimensions of LLMs: feedback, comparison, refinement and meta-feedback. \shortname~encompasses nine diverse tasks, each assessing the LLMs’ ability to critique responses at varying levels of quality granularity. Our extensive evaluations of open-source and closed-source LLMs reveal intriguing relationships between the critique ability and tasks, response qualities, and model scales. Datasets, resources and evaluation toolkit for \shortname~will be publicly released at \url{https://github.com/gmftbyGMFTBY/CriticBench}.

arxiv情報

著者 Tian Lan,Wenwei Zhang,Chen Xu,Heyan Huang,Dahua Lin,Kai Chen,Xian-ling Mao
発行日 2024-02-21 12:38:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク