要約
大規模な事前トレーニング済み言語モデル (LLM) を活用したオープンドメインのテキスト生成モデルの最近の進歩により、目覚ましいパフォーマンスが達成されました。
ただし、BLEU、ROUGE、METEOR などの従来の参照ベースのメトリクスでは、オープンエンドの生成タスクには不十分であるため、必要な属性についてこれらのモデルを評価および制御することは依然として課題です。
同様に、トレーニング可能な識別子ベースの評価メトリクスは有望ですが、高品質のトレーニング データを取得することは簡単な作業ではありません。
この論文では、オープンドメインの生成を評価するための新しいアプローチであるメタディストリビューション手法 (MDM) を紹介します。
MDM は、パラメーター数の増加と LLM のパフォーマンスの向上との相関関係を利用して、2 つの確率分布 (一方が他方よりも優れていることが知られている) の対比から、分布として見ることができる品質尺度へのマッピングを作成します。
ディストリビューションの、つまりメタディストリビューション。
私たちは、オープンドメインのテキスト生成評価のための MDM を 2 つのパラダイムの下で調査します。 1) \emph{Generative} MDM。メタ分布手法を利用して、識別子ベースのメトリクスをトレーニングするためのドメイン内ネガティブ サンプルを生成します。
2) \emph{Discriminative} MDM。2 つの言語モデル間の分布の不一致を評価に直接使用します。
マルチターン対話と抽象的な要約における事実性に関する私たちの実験では、両方のタスクにおいて、MDM が既存の自動評価指標よりも人間の判断とよりよく相関していることが実証され、そのような手法の強力なパフォーマンスと一般化可能性が強調されています。
要約(オリジナル)
Recent advances in open-domain text generation models powered by large pre-trained language models (LLMs) have achieved remarkable performance. However, evaluating and controlling these models for desired attributes remains a challenge, as traditional reference-based metrics such as BLEU, ROUGE, and METEOR are insufficient for open-ended generation tasks. Similarly, while trainable discriminator-based evaluation metrics show promise, obtaining high-quality training data is a non-trivial task. In this paper, we introduce a novel approach to evaluate open-domain generation – the Meta-Distribution Methods (MDM). Drawing on the correlation between the rising parameter counts and the improving performance of LLMs, MDM creates a mapping from the contrast of two probabilistic distributions — one known to be superior to the other — to quality measures, which can be viewed as a distribution of distributions i.e. Meta-Distribution. We investigate MDM for open-domain text generation evaluation under two paradigms: 1) \emph{Generative} MDM, which leverages the Meta-Distribution Methods to generate in-domain negative samples for training discriminator-based metrics; 2) \emph{Discriminative} MDM, which directly uses distribution discrepancies between two language models for evaluation. Our experiments on multi-turn dialogue and factuality in abstractive summarization demonstrate that MDMs correlate better with human judgment than existing automatic evaluation metrics on both tasks, highlighting the strong performance and generalizability of such methods.
arxiv情報
著者 | Sidi Lu,Asli Celikyilmaz,Tianlu Wang,Nanyun Peng |
発行日 | 2023-06-20 20:37:54+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google