要約
複数の言語モデルの最近の導入と、改善された自然言語処理タスク、特に要約に対する継続的な需要を考慮して、この作業は、ニュース要約タスクの小規模な言語モデルに焦点を当てた20の最近の言語モデルの包括的なベンチマークを提供します。
この作業では、さまざまなスタイルで記述され、3つの異なるデータセットで提示されるニュース記事テキストを要約する際に、これらのモデルの機能と有効性を体系的にテストします。
具体的には、この研究では、ゼロショットおよび少数のショット学習設定に焦点を当て、自動メトリック、人間の評価、LLM-as-a-judgeなどのさまざまな評価概念を組み合わせた堅牢な評価方法論を適用します。
興味深いことに、少数のショット学習設定のデモンストレーションの例を含めて、モデルのパフォーマンスを向上させず、場合によっては、生成された要約の品質が悪化しました。
この問題は、主に、モデルのパフォーマンスに悪影響を与える参照要約として使用されている金の要約の品質が低いために発生します。
さらに、私たちの研究の結果は、GPT-3.5-ターボとGPT-4の例外的なパフォーマンスを強調しています。これは、一般的に高度な機能のために支配的です。
ただし、評価されたパブリックモデルの中で、QWEN1.5-7B、Solar-10.7B-Instruct-V1.0、Meta-Llama-3-8B、Zephyr-7B-Betaなどの特定のモデルが有望な結果を示しました。
これらのモデルは重要な可能性を示し、ニュース要約のタスクのための大規模なモデルの競争力のある代替品として配置しました。
要約(オリジナル)
Given the recent introduction of multiple language models and the ongoing demand for improved Natural Language Processing tasks, particularly summarization, this work provides a comprehensive benchmarking of 20 recent language models, focusing on smaller ones for the news summarization task. In this work, we systematically test the capabilities and effectiveness of these models in summarizing news article texts which are written in different styles and presented in three distinct datasets. Specifically, we focus in this study on zero-shot and few-shot learning settings and we apply a robust evaluation methodology that combines different evaluation concepts including automatic metrics, human evaluation, and LLM-as-a-judge. Interestingly, including demonstration examples in the few-shot learning setting did not enhance models’ performance and, in some cases, even led to worse quality of the generated summaries. This issue arises mainly due to the poor quality of the gold summaries that have been used as reference summaries, which negatively impacts the models’ performance. Furthermore, our study’s results highlight the exceptional performance of GPT-3.5-Turbo and GPT-4, which generally dominate due to their advanced capabilities. However, among the public models evaluated, certain models such as Qwen1.5-7B, SOLAR-10.7B-Instruct-v1.0, Meta-Llama-3-8B and Zephyr-7B-Beta demonstrated promising results. These models showed significant potential, positioning them as competitive alternatives to large models for the task of news summarization.
arxiv情報
著者 | Abdurrahman Odabaşı,Göksel Biricik |
発行日 | 2025-01-30 04:20:16+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google