Correction of Errors in Preference Ratings from Automated Metrics for Text Generation

要約

テキスト生成の分野における主な課題は評価です。人間による評価はコストがかかり、自動化された測定基準は人間の判断とかなりの不一致を示すことがよくあります。
この論文では、システム出力間の優先順位の生成に使用される自動メトリクスのエラーの傾向を考慮したテキスト生成評価の統計モデルを提案します。
既存の自動メトリクスは一般に、この設定でシステム間の有意な差を割り当てることに過信していることを示します。
ただし、私たちのモデルでは、人間による評価と自動評価を効率的に組み合わせて、自動化された指標のエラーの傾向を修正できます。
この組み合わせを使用すると、95% のケースで純粋な人間による評価と同じ評価結果が得られながら、堅牢で統計的に有意な結果に達するには、評価で通常使用される人間によるアノテーションの約 50% のみが必要であることを示します。
対話システム、機械翻訳、テキスト要約という 3 つのテキスト生成タスクに対するアプローチの利点を紹介します。

要約(オリジナル)

A major challenge in the field of Text Generation is evaluation: Human evaluations are cost-intensive, and automated metrics often display considerable disagreement with human judgments. In this paper, we propose a statistical model of Text Generation evaluation that accounts for the error-proneness of automated metrics when used to generate preference rankings between system outputs. We show that existing automated metrics are generally over-confident in assigning significant differences between systems in this setting. However, our model enables an efficient combination of human and automated ratings to remedy the error-proneness of the automated metrics. We show that using this combination, we only require about 50% of the human annotations typically used in evaluations to arrive at robust and statistically significant results while yielding the same evaluation outcome as the pure human evaluation in 95% of cases. We showcase the benefits of approach for three text generation tasks: dialogue systems, machine translation, and text summarization.

arxiv情報

著者 Jan Deriu,Pius von Däniken,Don Tuggener,Mark Cieliebak
発行日 2023-06-06 17:09:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク