要約
言語生成の優れた自動評価指標は、理想的には、テキストの品質に関する人間の判断と高度に相関します。
しかし、そのような指標が不足しているため、言語ジェネレーターの迅速かつ効率的な進歩が妨げられています。
1 つの例外は、最近提案されたモーブです。
理論的には、Mauve は文字列に関する 2 つの確率分布間の情報理論的な発散を測定します。1 つは評価中の言語ジェネレーターを表し、1 つは評価中の言語ジェネレーターを表します。
もう 1 つは真の自然言語分布を表します。
Mauve の著者らは、その成功は彼らが提案した分岐の定性的特性から来ていると主張しています。
しかし実際には、この発散は計算できないため、Mauve は代わりにクラスターにわたる多項分布間の発散を測定することによってこの発散を近似します。クラスターの割り当ては、事前にトレーニングされた言語モデルの埋め込みに基づいて文字列をグループ化することによって行われます。
しかし、私たちが示すように、これは理論的にも実践的にも厳密な近似ではありません。
ここで疑問が生じます。なぜモーブはこれほど効果があるのでしょうか?
この研究では、Mauve が間違った理由で正しかったこと、およびその高いパフォーマンスのために新しく提案された分岐は必要ないことを示します。
実際、古典的な発散とその提案されたクラスターベースの近似を組み合わせると、実際にはより優れた評価指標として機能する可能性があります。
この論文は詳細な分析で終わります。
この分析により、表面レベルの特徴を無視しながら、テキストの構文レベルおよび一貫性レベルの特徴をエンコードすることによって、文字列分布に対するそのようなクラスターベースの代替は、最先端技術を評価するのに単純に優れている可能性があるという結論に至りました。
言語ジェネレーター。
要約(オリジナル)
A good automatic evaluation metric for language generation ideally correlates highly with human judgements of text quality. Yet, there is a dearth of such metrics, which inhibits the rapid and efficient progress of language generators. One exception is the recently proposed Mauve. In theory, Mauve measures an information-theoretic divergence between two probability distributions over strings: one representing the language generator under evaluation; the other representing the true natural language distribution. Mauve’s authors argue that its success comes from the qualitative properties of their proposed divergence. Yet in practice, as this divergence is uncomputable, Mauve approximates it by measuring the divergence between multinomial distributions over clusters instead, where cluster assignments are attained by grouping strings based on a pre-trained language model’s embeddings. As we show, however, this is not a tight approximation — in either theory or practice. This begs the question: why does Mauve work so well? In this work, we show that Mauve was right for the wrong reasons, and that its newly proposed divergence is not necessary for its high performance. In fact, classical divergences paired with its proposed cluster-based approximation may actually serve as better evaluation metrics. We finish the paper with a probing analysis; this analysis leads us to conclude that — by encoding syntactic- and coherence-level features of text, while ignoring surface-level features — such cluster-based substitutes to string distributions may simply be better for evaluating state-of-the-art language generators.
arxiv情報
著者 | Tiago Pimentel,Clara Meister,Ryan Cotterell |
発行日 | 2023-06-29 15:08:38+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google