DeltaScore: Evaluating Story Generation with Differentiating Perturbations

要約

自然言語生成タスクにはさまざまな評価指標が存在しますが、それらは一般的に人間の判断とはうまく相関せず、流暢さと関連性などのきめの細かいストーリーの側面を測定しないため、ストーリー生成に対する有用性は限られています。
全体的な世代の品質。
この論文では、摂動を利用してきめの細かいストーリーの側面を評価するアプローチであるデルタスコアを提案します。
私たちのコアとなるアイデアは、ストーリーが特定の側面 (流暢さなど) で優れたパフォーマンスを発揮するほど、特定の摂動 (タイプミスの導入など) の影響を大きく受けるという仮説に基づいています。
影響を測定するために、言語モデルを使用して、摂動前後のストーリー間の尤度差を計算します。
複数のストーリー ドメインにわたる最先端のモデル ベースおよび従来の類似性ベースのメトリックに対してデルタスコアを評価し、5 つのきめの細かいストーリーの側面に関する人間の判断との相関関係を調査します。
.
私たちの結果は、デルタスコアがきめの細かいストーリーの側面を評価する際に印象的に機能することを示しており、特定の摂動がほとんどの側面を測定するのに非常に効果的であるように見えるという驚くべき結果を発見しました.

要約(オリジナル)

Various evaluation metrics exist for natural language generation tasks, but they have limited utility for story generation since they generally do not correlate well with human judgments and do not measure fine-grained story aspects, such as fluency versus relatedness, as they are intended to assess overall generation quality. In this paper, we propose deltascore, an approach that utilizes perturbation to evaluate fine-grained story aspects. Our core idea is based on the hypothesis that the better the story performs in a specific aspect (e.g., fluency), the more it will be affected by a particular perturbation (e.g., introducing typos). To measure the impact, we calculate the likelihood difference between the pre- and post-perturbation stories using a language model. We evaluate deltascore against state-of-the-art model-based and traditional similarity-based metrics across multiple story domains, and investigate its correlation with human judgments on five fine-grained story aspects: fluency, coherence, relatedness, logicality, and interestingness. Our results demonstrate that deltascore performs impressively in evaluating fine-grained story aspects, and we discovered a striking outcome where a specific perturbation appears to be highly effective in measuring most aspects.

arxiv情報

著者 Zhuohan Xie,Miao Li,Trevor Cohn,Jey Han Lau
発行日 2023-03-15 23:45:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク