要約
批評は、モデル生成コンテンツの品質を評価するための自然言語記述として、大規模言語モデル (LLM) のトレーニング、評価、改良において重要な役割を果たすことが証明されています。
しかし、批評そのものの質を評価する際の原則的な理解が欠けています。
本稿では、精度スコアとしての事実性と再現スコアとしての包括性の2つの側面から批評を評価するフレームワークであるMetaCritiqueと呼ばれる批評の中の批評を開拓します。
適合率と再現率の調和平均を計算し、F1 スコアと呼ばれる総合評価として算出します。
信頼できる評価結果を得るために、私たちは、よりきめ細かい方法で批評を記述する原子情報単位 (AIU) を提案します。
MetaCritique は各 AIU を考慮し、各 AIU の判断を総合して総合スコアを算出します。
さらに、評価プロセスには複雑な推論が含まれるため、MetaCritique は各判断をサポートする自然言語の理論的根拠を提供します。
私たちは、4 つのタスク (質問応答、推論、含意、要約) にわたる 300 件の批評 (2653 AIU) を含むメタ評価データセットを構築し、実現可能性と有効性を実証するために比較研究を実施します。
実験では、MetaCritique によって判断された優れた批評がより良い洗練につながることも示しており、生成人工知能が実際に MetaCritique によって大幅に進歩する可能性があることを示しています。
関連するコードとメタ評価データセットを https://github.com/GAIR-NLP/MetaCritique でリリースする予定です。
要約(オリジナル)
Critique, as a natural language description for assessing the quality of model-generated content, has been proven to play an essential role in the training, evaluation, and refinement of Large Language Models (LLMs). However, there is a lack of principled understanding in evaluating the quality of the critique itself. In this paper, we pioneer the critique of critique, termed MetaCritique, which is a framework to evaluate the critique from two aspects, i.e., factuality as precision score and comprehensiveness as recall score. We calculate the harmonic mean of precision and recall as the overall rating called F1 score. To obtain a reliable evaluation outcome, we propose Atomic Information Units (AIUs), which describe the critique in a more fine-grained manner. MetaCritique takes each AIU into account and aggregates each AIU’s judgment for the overall score. Moreover, given the evaluation process involves intricate reasoning, our MetaCritique provides a natural language rationale to support each judgment. We construct a meta-evaluation dataset containing 300 critiques (2653 AIUs) across four tasks (question answering, reasoning, entailment, and summarization), and we conduct a comparative study to demonstrate the feasibility and effectiveness. Experiments also show superior critique judged by MetaCritique leads to better refinement, indicating generative artificial intelligence indeed has the potential to be significantly advanced with our MetaCritique. We will release relevant code and meta-evaluation datasets at https://github.com/GAIR-NLP/MetaCritique.
arxiv情報
著者 | Shichao Sun,Junlong Li,Weizhe Yuan,Ruifeng Yuan,Wenjie Li,Pengfei Liu |
発行日 | 2024-01-09 12:20:41+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google