DeltaScore: Fine-Grained Story Evaluation with Perturbations

要約

自然言語生成タスク用に多数の評価指標が開発されていますが、流暢さや面白さなど、ストーリーテリングの複雑な側面を評価するように特別に調整されていないため、ストーリーの評価におけるその有効性は限られています。
この論文では、ストーリーの微妙な側面を評価するために摂動技術を採用した新しい方法論である DELTASCORE を紹介します。
私たちの中心的な命題は、ストーリーが特定の側面 (流暢さなど) でどの程度優れているかが、特定の混乱 (タイプミスの導入など) に対するそのストーリーの感受性の大きさと相関していると仮定しています。
これを考慮して、事前トレーニングされた言語モデルを使用して摂動前と摂動後の状態の間の尤度の差を計算することで、ある側面の品質を測定します。
流暢性、一貫性、関連性、論理性、面白さという 5 つのきめ細かいストーリーの側面において、2 つのドメインのストーリーテリング データセットに関する既存の指標と DELTASCORE を比較します。
DELTASCORE は驚くべきパフォーマンスを示し、特定の摂動が複数の側面を捉えるのに非常に効果的であることが判明したという驚くべき発見を明らかにしました。

要約(オリジナル)

Numerous evaluation metrics have been developed for natural language generation tasks, but their effectiveness in evaluating stories is limited as they are not specifically tailored to assess intricate aspects of storytelling, such as fluency and interestingness. In this paper, we introduce DELTASCORE, a novel methodology that employs perturbation techniques for the evaluation of nuanced story aspects. Our central proposition posits that the extent to which a story excels in a specific aspect (e.g., fluency) correlates with the magnitude of its susceptibility to particular perturbations (e.g., the introduction of typos). Given this, we measure the quality of an aspect by calculating the likelihood difference between pre- and post-perturbation states using pre-trained language models. We compare DELTASCORE with existing metrics on storytelling datasets from two domains in five fine-grained story aspects: fluency, coherence, relatedness, logicality, and interestingness. DELTASCORE demonstrates remarkable performance, revealing a surprising finding that a specific perturbation proves highly effective in capturing multiple aspects.

arxiv情報

著者 Zhuohan Xie,Miao Li,Trevor Cohn,Jey Han Lau
発行日 2023-11-02 06:08:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク