Themis: Towards Flexible and Interpretable NLG Evaluation

要約

自然言語生成 (NLG) タスクの評価は、長年にわたる重要な研究課題です。
最近の強力なラージ言語モデル (LLM) の出現により、一部の研究は LLM ベースの自動評価手法に注目しており、これは従来の文字列ベースおよびモデルベースのメトリクスに続く新しい評価パラダイムとなる大きな可能性を示しています。
ただし、既存の手法のパフォーマンスは向上しているにもかかわらず、参照への依存性や評価の柔軟性の制限など、いくつかの欠点がまだあります。
したがって、この論文では、この分野の関連データの不足を軽減するために、ヒトおよびGPT-4の注釈を備えた大規模なNLG評価コーパスNLG-Evalを細心の注意を払って構築します。
さらに、私たちは、NLG 評価専用の LLM である Themis を提案します。これは、私たちが設計した複数の観点からの一貫性と評価指向の好みの調整方法でトレーニングされています。
Themis は、参照なしで柔軟で解釈可能な評価を実行でき、さまざまな NLG タスクに対して優れた評価パフォーマンスを示し、同時に目に見えないタスクまで汎用化し、GPT-4 を含む他の評価モデルを上回ります。

要約(オリジナル)

The evaluation of natural language generation (NLG) tasks is a significant and longstanding research issue. With the recent emergence of powerful large language models (LLMs), some studies have turned to LLM-based automatic evaluation methods, which demonstrate great potential to become a new evaluation paradigm following traditional string-based and model-based metrics. However, despite the improved performance of existing methods, they still possess some deficiencies, such as dependency on references and limited evaluation flexibility. Therefore, in this paper, we meticulously construct a large-scale NLG evaluation corpus NLG-Eval with human and GPT-4 annotations to alleviate the lack of relevant data in this field. Furthermore, we propose Themis, an LLM dedicated to NLG evaluation, which has been trained with our designed multi-perspective consistency and rating-oriented preference alignment methods. Themis can conduct flexible and interpretable evaluations without references, and it exhibits superior evaluation performance on various NLG tasks, simultaneously generalizing well to unseen tasks and surpassing other evaluation models, including GPT-4.

arxiv情報

著者 Xinyu Hu,Li Lin,Mingqi Gao,Xunjian Yin,Xiaojun Wan
発行日 2024-06-26 14:04:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク