Towards Better Open-Ended Text Generation: A Multicriteria Evaluation Framework

要約

オープンエンドのテキスト生成は、強力な(大)言語モデルの増加により、自然言語処理の顕著なタスクとなっています。
ただし、これらのモデルの品質と採用されたデコード戦略を評価することは、コヒーレンス、多様性、困惑などの広く使用されているメトリック間のトレードオフのため、依然として困難です。
このペーパーでは、オープンエンドのテキスト生成のためのマルチカリリア評価の特定の問題に対処し、デコード方法の相対的および絶対ランキングの両方の新しい方法を提案しています。
具体的には、部分的な順序に基づいてベンチマークアプローチを採用し、既存の自動インジケーターのバランスをとる新しい要約メトリックを提示し、テキスト生成品質のより全体的な評価を提供します。
私たちの実験は、提案されたアプローチがデコード戦略を比較するための堅牢な方法を提供し、オープンエンドのテキスト生成タスクのモデル選択を導く貴重なツールとして機能することを示しています。
テキスト生成における評価方法を改善し、コード、データセット、モデルを公開していることを提案します。

要約(オリジナル)

Open-ended text generation has become a prominent task in natural language processing due to the rise of powerful (large) language models. However, evaluating the quality of these models and the employed decoding strategies remains challenging due to trade-offs among widely used metrics such as coherence, diversity, and perplexity. This paper addresses the specific problem of multicriteria evaluation for open-ended text generation, proposing novel methods for both relative and absolute rankings of decoding methods. Specifically, we employ benchmarking approaches based on partial orderings and present a new summary metric to balance existing automatic indicators, providing a more holistic evaluation of text generation quality. Our experiments demonstrate that the proposed approaches offer a robust way to compare decoding strategies and serve as valuable tools to guide model selection for open-ended text generation tasks. We suggest future directions for improving evaluation methodologies in text generation and make our code, datasets, and models publicly available.

arxiv情報

著者 Esteban Garces Arias,Hannah Blocher,Julian Rodemann,Meimingwei Li,Christian Heumann,Matthias Aßenmacher
発行日 2025-06-17 17:41:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク