Learning Evaluation Models from Large Language Models for Sequence Generation

要約

伝統的にBleuやRougeなどのメトリックに依存しているシーケンス生成の自動評価は、N-GRAMのオーバーラップに重点を置いているため、生成されたテキストシーケンスのセマンティック精度をキャプチャできないことがよくあります。
この問題の有望な解決策は、ブルートやコメットなどのモデルベースのメトリックを開発することです。
ただし、これらのアプローチは通常、評価モデルをトレーニングするために必要なラベル付き評価データの希少性によって妨げられます。
この作業では、この課題に基づいて、カスタマイズされたシーケンス評価メトリック（CSEM）を提案することにより、大規模な言語モデルを利用してモデルベースのメトリック開発のラベル付きデータを生成し、それにより人間標識データの必要性を排除することにより、この課題に基づいて構築されます。
さらに、CSEMの範囲を拡張して、単一のアスペクト、マルチアスペクト、参照、参照ベースの評価など、さまざまな評価タイプをサポートし、多様な現実世界のシナリオに合わせてメトリックのカスタマイズを可能にします。
Summevalベンチマークの実験結果は、CSEMが人間標識データなしで評価モデルを効果的にトレーニングできることを示しています。
強化学習と再ランキングのさらなる実験は、CSEMを通じて開発されたメトリックが従来の評価メトリックを上回ることを示しており、一般的に使用されるメトリックとChatGPTの両方で評価されるように、シーケンス品質の大幅な改善につながることが示されています。

要約(オリジナル)

Automatic evaluation of sequence generation, traditionally reliant on metrics like BLEU and ROUGE, often fails to capture the semantic accuracy of generated text sequences due to their emphasis on n-gram overlap. A promising solution to this problem is to develop model-based metrics, such as BLEURT and COMET. However, these approaches are typically hindered by the scarcity of labeled evaluation data, which is necessary to train the evaluation models. In this work, we build upon this challenge by proposing the Customized Sequence Evaluation Metric (CSEM), a three-stage evaluation model training method that utilizes large language models to generate labeled data for model-based metric development, thereby eliminating the need for human-labeled data. Additionally, we expand the scope of CSEM to support various evaluation types, including single-aspect, multi-aspect, reference-free, and reference-based evaluations, enabling the customization of metrics to suit diverse real-world scenarios. Experimental results on the SummEval benchmark demonstrate that CSEM can effectively train an evaluation model without human-labeled data. Further experiments in reinforcement learning and reranking show that metrics developed through CSEM outperform traditional evaluation metrics, leading to substantial improvements in sequence quality as evaluated by both commonly used metrics and ChatGPT.

arxiv情報

著者	Chenglong Wang,Hang Zhou,Kaiyan Chang,Tongran Liu,Chunliang Zhang,Quan Du,Tong Xiao,Yue Zhang,Jingbo Zhu
発行日	2025-03-25 12:00:54+00:00
arxivサイト	arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

Learning Evaluation Models from Large Language Models for Sequence Generation

要約

要約(オリジナル)

arxiv情報

提供元, 利用サービス

最近の投稿

最近のコメント

アーカイブ

カテゴリー