RepEval: Effective Text Evaluation with LLM Representation

要約

生成されたテキストの自動評価メトリクスは、特に LLM の急速な成長に伴い、NLG 分野で重要な役割を果たします。
ただし、既存の指標は特定のシナリオに限定されていることが多く、拡張する LLM アプリケーションの評価要件を満たすことが困難になります。
したがって、新しく柔軟で効果的な指標が求められています。
この研究では、LLM 表現の投影を評価に利用する最初のメトリックである RepEval を紹介します。
RepEval はトレーニングに最小限のサンプル ペアを必要とし、簡単なプロンプト変更を通じてさまざまなタスクに簡単に移行できます。
3 つのタスクからの 10 個のデータセットの結果は、私たちの手法の高い有効性を示しており、以前の指標と比較して人間の判断との強い相関関係を示し、GPT-4 をも上回っています。
私たちの研究は、LLM 表現に埋め込まれたテキストの品質に関する情報の豊富さを強調し、新しい指標の開発のための洞察を提供します。

要約(オリジナル)

Automatic evaluation metrics for generated texts play an important role in the NLG field, especially with the rapid growth of LLMs. However, existing metrics are often limited to specific scenarios, making it challenging to meet the evaluation requirements of expanding LLM applications. Therefore, there is a demand for new, flexible, and effective metrics. In this study, we introduce RepEval, the first metric leveraging the projection of LLM representations for evaluation. RepEval requires minimal sample pairs for training, and through simple prompt modifications, it can easily transition to various tasks. Results on ten datasets from three tasks demonstrate the high effectiveness of our method, which exhibits stronger correlations with human judgments compared to previous metrics, even outperforming GPT-4. Our work underscores the richness of information regarding text quality embedded within LLM representations, offering insights for the development of new metrics.

arxiv情報

著者 Shuqian Sheng,Yi Xu,Tianhang Zhang,Zanwei Shen,Luoyi Fu,Jiaxin Ding,Lei Zhou,Xinbing Wang,Chenghu Zhou
発行日 2024-04-30 13:50:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク