TIGERScore: Towards Building Explainable Metric for All Text Generation Tasks

要約

ここでは、\textbf{I}nstruction \textbf{G}uidance に従って \textbf{E}xplainable および \textbf{R} 参照なしの評価を幅広い範囲にわたって実行する \textbf{T}rained メトリクスである TIGERScore を紹介します。
テキスト生成タスク。
難解なスコアのみを提供する他の自動評価方法とは異なり、TIGERScore は自然言語命令に基づいて、生成されたテキスト内の間違いを正確に指摘するためのエラー分析を提供します。
私たちのメトリクスは LLaMA-2 に基づいており、6 つのテキスト生成タスクと 23 のテキスト生成データセットをカバーする、細心の注意を払って厳選された命令チューニング データセット MetricInstruct でトレーニングされています。
データセットは、(命令、入力、システム出力 $\rightarrow$ エラー分析) の形式の 42K のクアドルプルで構成されます。
さまざまなタイプのエラーをカバーするために、さまざまなモデルから「システム出力」を収集しました。
私たちのメトリクスを定量的に評価するために、5 つの保持されたデータセット、2 つの保持されたデータセットで人間による評価との相関を評価し、TIGERScore がこれらのデータセット全体で人間による評価とのオープンソース SoTA 相関を達成でき、GPT-4 評価者にほぼ近づいていることを示します。

参照不要のメトリクスとして、その相関関係は既存の最良の参照ベースのメトリクスを上回る可能性もあります。
メトリクスによって生成された理論的根拠をさらに定性的に評価するために、生成された説明に対して人による評価を実施したところ、説明が 70.8% 正確であることがわかりました。
これらの実験結果を通じて、TIGERScore はあらゆるテキスト生成タスクを評価するための普遍的な説明可能な指標を構築できる可能性を実証すると考えています。

要約(オリジナル)

We present TIGERScore, a \textbf{T}rained metric that follows \textbf{I}nstruction \textbf{G}uidance to perform \textbf{E}xplainable, and \textbf{R}eference-free evaluation over a wide spectrum of text generation tasks. Different from other automatic evaluation methods that only provide arcane scores, TIGERScore is guided by natural language instruction to provide error analysis to pinpoint the mistakes in the generated text. Our metric is based on LLaMA-2, trained on our meticulously curated instruction-tuning dataset MetricInstruct which covers 6 text generation tasks and 23 text generation datasets. The dataset consists of 42K quadruple in the form of (instruction, input, system output $\rightarrow$ error analysis). We collected the `system outputs’ through from a large variety of models to cover different types of errors. To quantitatively assess our metric, we evaluate its correlation with human ratings on 5 held-in datasets, 2 held-out datasets and show that TIGERScore can achieve the open-source SoTA correlation with human ratings across these datasets and almost approaches GPT-4 evaluator. As a reference-free metric, its correlation can even surpass the best existing reference-based metrics. To further qualitatively assess the rationale generated by our metric, we conduct human evaluation on the generated explanations and found that the explanations are 70.8\% accurate. Through these experimental results, we believe TIGERScore demonstrates the possibility of building universal explainable metrics to evaluate any text generation task.

arxiv情報

著者 Dongfu Jiang,Yishan Li,Ge Zhang,Wenhao Huang,Bill Yuchen Lin,Wenhu Chen
発行日 2023-12-06 16:06:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク