要約
近年、大規模言語モデル (LLM) はさまざまなタスク (長い文脈の理解など) において顕著な能力を実証しており、多くのベンチマークが提案されています。
ただし、長いテキストの生成機能については十分に調査されていないことがわかります。
したがって、長文テキスト生成における LLM のパフォーマンスを評価するための、包括的で実際に使用できるオープンエンドのベンチマークである階層型長文生成ベンチマーク (HelloBench) を紹介します。
ブルーム分類法に基づいて、HelloBench は長文生成タスクを、オープンエンド QA、要約、チャット、テキスト補完、ヒューリスティック テキスト生成の 5 つのサブタスクに分類します。
また、人間による評価との高い相関を維持しながら、人間による評価にかかる時間と労力を大幅に削減する、人間による評価手法である階層型長文評価(HelloEval)を提案します。
私たちは、約 30 の主流 LLM にわたって広範な実験を実施し、現在の LLM には長いテキスト生成機能が欠けていることを確認しました。
具体的には、まず、命令に明示的または暗黙的な長さの制約が含まれているかどうかに関係なく、ほとんどの LLM は 4000 ワードを超えるテキストを生成できないことがわかります。
第 2 に、一部の LLM は長いテキストを生成できますが、多くの問題が存在することがわかります (例: 深刻な繰り返しや品質の低下)。
第三に、HelloEval の有効性を実証するために、HelloEval を従来の指標 (ROUGE、BLEU など) および LLM-as-a-Judge 手法と比較します。これにより、HelloEval が人間の評価と最も高い相関関係を持っていることがわかります。
コードは https://github.com/Quehry/HelloBench でリリースされます。
要約(オリジナル)
In recent years, Large Language Models (LLMs) have demonstrated remarkable capabilities in various tasks (e.g., long-context understanding), and many benchmarks have been proposed. However, we observe that long text generation capabilities are not well investigated. Therefore, we introduce the Hierarchical Long Text Generation Benchmark (HelloBench), a comprehensive, in-the-wild, and open-ended benchmark to evaluate LLMs’ performance in generating long text. Based on Bloom’s Taxonomy, HelloBench categorizes long text generation tasks into five subtasks: open-ended QA, summarization, chat, text completion, and heuristic text generation. Besides, we propose Hierarchical Long Text Evaluation (HelloEval), a human-aligned evaluation method that significantly reduces the time and effort required for human evaluation while maintaining a high correlation with human evaluation. We have conducted extensive experiments across around 30 mainstream LLMs and observed that the current LLMs lack long text generation capabilities. Specifically, first, regardless of whether the instructions include explicit or implicit length constraints, we observe that most LLMs cannot generate text that is longer than 4000 words. Second, we observe that while some LLMs can generate longer text, many issues exist (e.g., severe repetition and quality degradation). Third, to demonstrate the effectiveness of HelloEval, we compare HelloEval with traditional metrics (e.g., ROUGE, BLEU, etc.) and LLM-as-a-Judge methods, which show that HelloEval has the highest correlation with human evaluation. We release our code in https://github.com/Quehry/HelloBench.
arxiv情報
著者 | Haoran Que,Feiyu Duan,Liqun He,Yutao Mou,Wangchunshu Zhou,Jiaheng Liu,Wenge Rong,Zekun Moore Wang,Jian Yang,Ge Zhang,Junran Peng,Zhaoxiang Zhang,Songyang Zhang,Kai Chen |
発行日 | 2024-09-24 15:38:11+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google