HAUSER: Towards Holistic and Automatic Evaluation of Simile Generation

要約

直喩は、ストーリーや会話の生成などのクリエイティブなライティングにおいて重要な役割を果たします。
適切な評価指標は、直喩生成 (SG) の研究を導く灯台のようなものです。
しかし、どのような基準を考慮すべきか、各基準をどのように指標に定量化するか、そしてその指標が包括的、効率的、信頼性の高い SG 評価に有効であるかどうかについては、まだ十分に検討されていません。
この課題に対処するために、私たちは SG タスクの総合的かつ自動評価システムである HAUSER を確立しました。これは、3 つの観点からの 5 つの基準と各基準の自動指標で構成されます。
広範な実験を通じて、当社の指標は、以前の自動指標と比較して、それぞれの観点から人間の評価との相関性が大幅に高いことを確認しました。

要約(オリジナル)

Similes play an imperative role in creative writing such as story and dialogue generation. Proper evaluation metrics are like a beacon guiding the research of simile generation (SG). However, it remains under-explored as to what criteria should be considered, how to quantify each criterion into metrics, and whether the metrics are effective for comprehensive, efficient, and reliable SG evaluation. To address the issues, we establish HAUSER, a holistic and automatic evaluation system for the SG task, which consists of five criteria from three perspectives and automatic metrics for each criterion. Through extensive experiments, we verify that our metrics are significantly more correlated with human ratings from each perspective compared with prior automatic metrics.

arxiv情報

著者 Qianyu He,Yikai Zhang,Jiaqing Liang,Yuncheng Huang,Yanghua Xiao,Yunwen Chen
発行日 2023-06-13 06:06:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク