要約
機械生成テキストを評価するための自動方法は、生成システムの用途が拡大しているため、非常に重要になっています。
従来の方法では、説明可能性の欠如に対処し、評価結果を示すために単独の数値スコアを発行する傾向がありました。
最近の進歩では、大規模言語モデル (LLM) を組み込んでより詳細なエラー分析を提供することでこの制限を軽減しようとしていますが、特に包括的なエラー カバレッジと迅速な検出が最重要である産業分野では、その適用性は依然として制限されています。
これらの課題を軽減するために、テキスト生成の品質を評価するための 2 段階の説明可能な評価方法である DEE を導入します。
Llama 2 に基づいて構築された DEE は、ステージ固有の命令に基づくデュアルステージ原則に従って、最初のステージで生成されたテキスト内のエラーを効率的に特定し、その後、第 2 ステージで包括的な診断レポートを提供します。
DEE は、精巧に組み立てられたデータセット AntEval に基づいて微調整されており、生成システムを採用した Alipay の 4 つの実際のアプリケーションからの 15,000 の例が含まれています。
このデータセットは幻覚や毒性などの新たに浮上した問題に関係しており、それによって DEE の評価基準の範囲が広がります。
実験結果は、DEE が既存の評価方法よりも優れていることを確認し、人間関係と効率の両方で大幅な改善を達成しました。
要約(オリジナル)
Automatic methods for evaluating machine-generated texts hold significant importance due to the expanding applications of generative systems. Conventional methods tend to grapple with a lack of explainability, issuing a solitary numerical score to signify the assessment outcome. Recent advancements have sought to mitigate this limitation by incorporating large language models (LLMs) to offer more detailed error analyses, yet their applicability remains constrained, particularly in industrial contexts where comprehensive error coverage and swift detection are paramount. To alleviate these challenges, we introduce DEE, a Dual-stage Explainable Evaluation method for estimating the quality of text generation. Built upon Llama 2, DEE follows a dual-stage principle guided by stage-specific instructions to perform efficient identification of errors in generated texts in the initial stage and subsequently delves into providing comprehensive diagnostic reports in the second stage. DEE is fine-tuned on our elaborately assembled dataset AntEval, which encompasses 15K examples from 4 real-world applications of Alipay that employ generative systems. The dataset concerns newly emerged issues like hallucination and toxicity, thereby broadening the scope of DEE’s evaluation criteria. Experimental results affirm that DEE’s superiority over existing evaluation methods, achieving significant improvements in both human correlation as well as efficiency.
arxiv情報
著者 | Shenyu Zhang,Yu Li,Rui Wu,Xiutian Huang,Yongrui Chen,Wenhao Xu,Guilin Qi |
発行日 | 2024-03-18 06:30:41+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google