NoveltyBench: Evaluating Language Models for Humanlike Diversity

要約

言語モデルは、標準のベンチマークで顕著な機能を実証していますが、モードの崩壊からますます苦労しており、多様で新しい出力を生成できません。
私たちの作品では、複数の異なる品質の出力を生成する言語モデルの能力を評価するために特別に設計されたベンチマークであるNebletyBenchを紹介します。
NebletyBenchは、キュレーションされたプロンプトを利用して、多様な回答とフィルタリングされた実際のユーザークエリを引き出します。
20の主要な言語モデルを評価すると、現在の最先端のシステムは、人間の作家よりも多様性が大幅に少ないことがわかります。
特に、家族内の大規模なモデルは、より小さなカウンターパートよりも多様性が少ないことが多く、標準ベンチマークの能力が生成ユーティリティに直接変換されるという概念に挑戦します。
コンテキスト内再生のような戦略を促すことは多様性を引き出すことができますが、私たちの調査結果は、現在のモデルの分布の多様性の根本的な欠如を強調し、さまざまな反応を求めているユーザーのユーティリティを減らし、品質とともに多様性を優先する新しいトレーニングと評価パラダイムの必要性を示唆しています。

要約(オリジナル)

Language models have demonstrated remarkable capabilities on standard benchmarks, yet they struggle increasingly from mode collapse, the inability to generate diverse and novel outputs. Our work introduces NoveltyBench, a benchmark specifically designed to evaluate the ability of language models to produce multiple distinct and high-quality outputs. NoveltyBench utilizes prompts curated to elicit diverse answers and filtered real-world user queries. Evaluating 20 leading language models, we find that current state-of-the-art systems generate significantly less diversity than human writers. Notably, larger models within a family often exhibit less diversity than their smaller counterparts, challenging the notion that capability on standard benchmarks translates directly to generative utility. While prompting strategies like in-context regeneration can elicit diversity, our findings highlight a fundamental lack of distributional diversity in current models, reducing their utility for users seeking varied responses and suggesting the need for new training and evaluation paradigms that prioritize diversity alongside quality.

arxiv情報

著者 Yiming Zhang,Harshita Diddee,Susan Holm,Hanchen Liu,Xinyue Liu,Vinay Samuel,Barry Wang,Daphne Ippolito
発行日 2025-04-08 16:51:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク