SemScore: Automated Evaluation of Instruction-Tuned LLMs based on Semantic Textual Similarity

要約

命令調整された大規模言語モデル (LLM) は、最近、自然言語命令に適合する応答を生成する能力において目覚ましい進歩を示しました。
ただし、現在の作業の多くは、生成された応答の品質を判断するために手動評価に依存しています。
このような手動評価は時間がかかるため、複数のモデルやモデルのバリアントの評価に簡単に拡張することはできません。
この短い論文では、SemScore と呼ばれる、単純だが非常に効果的な評価指標を提案します。この評価指標では、セマンティック テキスト類似性 (STS) を使用して、モデルの出力とゴールド ターゲットの応答を直接比較します。
テキスト生成に広く使用されている 8 つの評価指標を使用して、12 の著名な命令調整 LLM のモデル出力の比較評価を実施します。
私たちが提案した SemScore 指標は、人間の評価との相関関係の点で、多くの場合より複雑な他の評価指標よりも優れていることがわかりました。
これらの発見は、命令調整された LLM の評価に対する私たちの提案した指標の有用性を示しています。

要約(オリジナル)

Instruction-tuned Large Language Models (LLMs) have recently showcased remarkable advancements in their ability to generate fitting responses to natural language instructions. However, many current works rely on manual evaluation to judge the quality of generated responses. Since such manual evaluation is time-consuming, it does not easily scale to the evaluation of multiple models and model variants. In this short paper, we propose a straightforward but remarkably effective evaluation metric called SemScore, in which we directly compare model outputs to gold target responses using semantic textual similarity (STS). We conduct a comparative evaluation of the model outputs of 12 prominent instruction-tuned LLMs using 8 widely-used evaluation metrics for text generation. We find that our proposed SemScore metric outperforms all other, in many cases more complex, evaluation metrics in terms of correlation to human evaluation. These findings indicate the utility of our proposed metric for the evaluation of instruction-tuned LLMs.

arxiv情報

著者 Ansar Aynetdinov,Alan Akbik
発行日 2024-01-30 14:52:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク