要約
人間による評価は、自然言語生成システムを評価するための最も標準的な方法であると考えられています。
ただし、その重要性はコミュニティ全体に受け入れられていますが、その実行の質には疑問が投げかけられることがよくあります。
この意見書では、ユーモア、皮肉、皮肉など、より難解な形式の言語の生成は、選択された評価パネルの特性が最も重要であるサブドメインを構成しており、可能な限り人口統計学的特性を報告するためにあらゆる努力が払われるべきであると主張します。
、透明性と複製可能性を考慮して。
私たちは、各言語形式の概要と、言語形式の解釈がさまざまな参加変数によってどのように影響されるかという観点からの例の分析によって、これらの主張を支持します。
さらに、このサブドメインで評価手順がどの程度適切に報告されているかを評価するために、NLG の最近の研究に関する重要な調査を実施しました。その結果、評価者の人口統計情報のオープンな報告が著しく欠如していること、および採用においてクラウドソーシング プラットフォームに大きく依存していることに注目しました。
要約(オリジナル)
Human evaluation is often considered to be the gold standard method of evaluating a Natural Language Generation system. However, whilst its importance is accepted by the community at large, the quality of its execution is often brought into question. In this position paper, we argue that the generation of more esoteric forms of language – humour, irony and sarcasm – constitutes a subdomain where the characteristics of selected evaluator panels are of utmost importance, and every effort should be made to report demographic characteristics wherever possible, in the interest of transparency and replicability. We support these claims with an overview of each language form and an analysis of examples in terms of how their interpretation is affected by different participant variables. We additionally perform a critical survey of recent works in NLG to assess how well evaluation procedures are reported in this subdomain, and note a severe lack of open reporting of evaluator demographic information, and a significant reliance on crowdsourcing platforms for recruitment.
arxiv情報
| 著者 | Tyler Loakman,Aaron Maladry,Chenghua Lin | 
| 発行日 | 2023-11-09 17:50:23+00:00 | 
| arxivサイト | arxiv_id(pdf) | 
提供元, 利用サービス
arxiv.jp, Google
