要約
この論文では、画像生成からテキスト生成までの精度と再現率のメトリクスの適応に焦点を当て、Llama-2 や Mistral などの大規模言語モデル (LLM) の新しい評価フレームワークを紹介します。
このアプローチにより、コーパスを揃える必要がなく、生成されたテキストの品質と多様性を微妙に評価することができます。
この研究では、最先端の言語モデルの包括的な評価を実施することにより、従来のベンチマークでは十分に把握できなかった、オープンエンド生成タスクにおけるパフォーマンスに関する重要な洞察が明らかになりました。
この調査結果は、特にモデルが人間のフィードバックによって微調整されている場合に、生成されたサンプルの品質と多様性の間のトレードオフを浮き彫りにしています。
この研究は、配布ベースの NLP 評価用のツールキットを拡張し、多様で高品質のテキストを生成する際に現在の LLM が直面する実践的な機能と課題についての洞察を提供します。
要約(オリジナル)
This paper introduces a novel evaluation framework for Large Language Models (LLMs) such as Llama-2 and Mistral, focusing on the adaptation of Precision and Recall metrics from image generation to text generation. This approach allows for a nuanced assessment of the quality and diversity of generated text without the need for aligned corpora. By conducting a comprehensive evaluation of state-of-the-art language models, the study reveals significant insights into their performance on open-ended generation tasks, which are not adequately captured by traditional benchmarks. The findings highlight a trade-off between the quality and diversity of generated samples, particularly when models are fine-tuned with human feedback. This work extends the toolkit for distribution-based NLP evaluation, offering insights into the practical capabilities and challenges faced by current LLMs in generating diverse and high-quality text.
arxiv情報
著者 | Florian Le Bronnec,Alexandre Verine,Benjamin Negrevergne,Yann Chevaleyre,Alexandre Allauzen |
発行日 | 2024-02-28 10:12:34+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google