要約
ますます洗練された言語モデルが出現するにつれて、特に要約や質問応答などのタスクにおいて、その信頼性が極めて重要な問題になります。
言語の多様性と無数の可能な回答があるため、彼らの回答が文脈に基づいた忠実なものであることを保証することは困難です。
この論文では、コンテキストによってサポートされるクレームの最長の非連続部分文字列 (最長サポートサブシーケンス (LSS) と呼ばれます) を計算することによって、機械生成テキストの忠実性を評価する新しいアプローチを紹介します。
人間が注釈を付けた新しいデータセットを使用して、モデルを微調整して LSS を生成します。
我々は新しい評価方法を導入し、LSS が使用されていない場合に比べて、LSS が使用されている場合には、これらの指標が人間の評価とより良く相関することを実証します。
私たちが提案した指標は、データセットの忠実性に関する一般的な最先端の指標よりも 18% 向上していることを示しています。
私たちのメトリクスは、6 つの異なるモデルにわたる要約データセットで他のメトリクスを常に上回っています。
最後に、この指標を使用して、いくつかの人気のある大規模言語モデル (LLM) の忠実性を比較します。
LSS を予測するために構築された人間による注釈付きのデータセットと、忠実性を評価するための微調整されたモデルをリリースします。
要約(オリジナル)
As increasingly sophisticated language models emerge, their trustworthiness becomes a pivotal issue, especially in tasks such as summarization and question-answering. Ensuring their responses are contextually grounded and faithful is challenging due to the linguistic diversity and the myriad of possible answers. In this paper, we introduce a novel approach to evaluate faithfulness of machine-generated text by computing the longest noncontinuous substring of the claim that is supported by the context, which we refer to as the Longest Supported Subsequence (LSS). Using a new human-annotated dataset, we finetune a model to generate LSS. We introduce a new method of evaluation and demonstrate that these metrics correlate better with human ratings when LSS is employed, as opposed to when it is not. Our proposed metric demonstrates an 18% enhancement over the prevailing state-of-the-art metric for faithfulness on our dataset. Our metric consistently outperforms other metrics on a summarization dataset across six different models. Finally, we compare several popular Large Language Models (LLMs) for faithfulness using this metric. We release the human-annotated dataset built for predicting LSS and our fine-tuned model for evaluating faithfulness.
arxiv情報
著者 | Anirudh Mittal,Timo Schick,Mikel Artetxe,Jane Dwivedi-Yu |
発行日 | 2023-08-23 14:18:44+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google