Distribution Aware Metrics for Conditional Natural Language Generation

要約

条件付き自然言語生成を評価するための従来の自動化されたメトリクスは、単一の生成されたテキストと最も一致するゴールド スタンダードのグラウンド トゥルース テキストとの間のペアワイズ比較を使用します。
複数のグラウンド トゥルースが利用可能な場合、スコアは参照全体の平均または最大操作を使用して集計されます。
このアプローチは、グラウンド トゥルース データの多様性 (つまり、条件付きテキストの分布の分散) が自動音声認識などのノイズに起因する場合にはうまく機能しますが、グラウンド トゥルースの多様性が存在する場合にはロバストな評価ができません。
Truths はモデルの信号を表します。
この作業では、既存のメトリックは、グラウンド トゥルースが意味的に多様であり、それらのキャプションの多様性がコンテキストに関する有用な追加情報をキャプチャする視覚的な説明や要約などのドメインには適していないと主張します。
条件付き言語生成モデルの複数候補評価のための新しいパラダイムと、それぞれの小さなサンプル セットを使用して、参照セットとモデル生成キャプション セットの分布を比較する新しいメトリック ファミリを提案します。
視覚的説明のケーススタディでアプローチの有用性を示します。ここでは、既存のモデルが多様性よりも単一の説明の品質を最適化することを示し、サンプリング方法と温度が説明の品質と多様性にどのように影響するかについていくつかの洞察を得ることができます。

要約(オリジナル)

Traditional automated metrics for evaluating conditional natural language generation use pairwise comparisons between a single generated text and the best-matching gold-standard ground truth text. When multiple ground truths are available, scores are aggregated using an average or max operation across references. While this approach works well when diversity in the ground truth data (i.e. dispersion of the distribution of conditional texts) can be ascribed to noise, such as in automated speech recognition, it does not allow for robust evaluation in the case where diversity in the ground truths represents signal for the model. In this work we argue that existing metrics are not appropriate for domains such as visual description or summarization where ground truths are semantically diverse, and where the diversity in those captions captures useful additional information about the context. We propose a novel paradigm for multi-candidate evaluation of conditional language generation models, and a new family of metrics that compare the distributions of reference and model-generated caption sets using small sample sets of each. We demonstrate the utility of our approach with a case study in visual description: where we show that existing models optimize for single-description quality over diversity, and gain some insights into how sampling methods and temperature impact description quality and diversity.

arxiv情報

著者 David M Chan,Yiming Ni,Austin Myers,Sudheendra Vijayanarasimhan,David A Ross,John Canny
発行日 2022-09-15 17:58:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG パーマリンク